PdfExtractor

PdfExtractor class

Classe per estrarre immagini e testo da documento PDF.

public sealed class PdfExtractor : Facade

Costruttori

NomeDescrizione
PdfExtractor()Inizializza nuovoPdfExtractor oggetto.
PdfExtractor(Document)Inizializza nuovoPdfExtractor oggetto sulla base deldocument .

Proprietà

NomeDescrizione
Document { get; }Ottiene la facciata del documento su cui sta lavorando.
EndPage { get; set; }Ottiene o imposta la pagina finale nell’intervallo di pagine in cui verrà eseguita l’operazione di estrazione.
ExtractImageMode { get; set; }Imposta la modalità per il processo di estrazione delle immagini.
ExtractTextMode { get; set; }Imposta la modalità per estrarre il risultato del testo.
IsBidi { get; }È vero quando il testo ha simboli ebraici o arabi. Questo caso deve essere considerato in modo speciale perché le funzioni stringa cambiano il loro comportamento e avviano il processo di testo da destra a sinistra (tranne i numeri e altri caratteri non di testo).
Password { get; set; }Ottiene o imposta la password del file di input.
Resolution { get; set; }Imposta o ottiene la risoluzione per le immagini estratte. Il valore predefinito è 150. Le immagini con un valore di risoluzione maggiore sono più nitide. Tuttavia, l’aumento del valore della risoluzione comporta un aumento del tempo e della memoria necessari per estrarre le immagini. Di solito per ottenere immagini nitide è sufficiente per impostare la risoluzione su 150 o 300.
StartPage { get; set; }Ottiene o imposta la pagina iniziale nell’intervallo di pagine in cui verrà eseguita l’operazione di estrazione.
TextSearchOptions { get; set; }Ottiene o imposta le opzioni di ricerca del testo.

Metodi

NomeDescrizione
virtual BindPdf(Document)Inizializza la facciata.
override BindPdf(Stream)Associa il documento PDF dallo stream.
override BindPdf(string)Associa file PDF di input.
virtual Close()Dispose Aspose.Pdf.Document rilegato con una facciata.
Dispose()Elimina la facciata.
ExtractAttachment()Estrae gli allegati da un documento Pdf.
ExtractAttachment(string)Estrae l’allegato al file PDF in base al nome dell’allegato.
ExtractImage()Estrai immagini da file PDF.
ExtractText()Estrae il testo da un documento Pdf utilizzando la codifica Unicode.
ExtractText(Encoding)Estrae il testo da un documento Pdf utilizzando la codifica specificata.
GetAttachment()Salva tutti i file allegati negli stream.
GetAttachment(string)Memorizza l’allegato nel file.
GetAttachmentInfo()Ottiene l’elenco degli allegati.
GetAttachNames()Restituisce l’elenco degli allegati nel file PDF. Nota: prima di utilizzare questo metodo è necessario chiamare ExtractAttachments.
GetNextImage(Stream)Recupera l’immagine successiva dal file PDF e la memorizza nello stream.
GetNextImage(string)Recupera l’immagine successiva dal documento PDF. Nota: è necessario chiamare ExtractImage prima di utilizzare questo metodo.
GetNextImage(Stream, ImageFormat)Recupera l’immagine successiva dal file PDF e la memorizza nello stream con il formato immagine specificato.
GetNextImage(string, ImageFormat)Recupera l’immagine successiva dal documento PDF con il formato immagine specificato. Nota: è necessario chiamare ExtractImage prima di utilizzare questo metodo.
GetNextPageText(Stream)Salva il testo di una pagina in streaming.
GetNextPageText(string)Salva il testo di una pagina su file.
GetText(Stream)Salva il testo in streaming. Guarda anche:ExtractText
GetText(string)Salva il testo su file. Guarda anche:ExtractText
GetText(Stream, bool)Salva il testo in streaming. Guarda anche:ExtractText
HasNextImage()Verifica se più immagini sono accessibili nel documento PDF. Nota: è necessario chiamare ExtractImage prima di utilizzare questo metodo.
HasNextPageText()Indica se è possibile ottenere più testi o meno.

Guarda anche