Class PdfExtractor

PdfExtractor-Klasse

Klasse zum Extrahieren von Bildern und Text aus PDF-Dokumenten.

public sealed class PdfExtractor : Facade

Konstruktoren

NameBeschreibung
PdfExtractor()Initialisiert ein neues PdfExtractor-Objekt.
PdfExtractor(Document)Initialisiert ein neues PdfExtractor-Objekt auf Basis des Dokuments.

Eigenschaften

NameBeschreibung
Document { get; }Gibt das Dokument zurück, an dem die Fassade arbeitet.
EndPage { get; set; }Gibt die Endseite im Seitenbereich zurück oder setzt sie, in dem die Extraktionsoperation durchgeführt wird.
ExtractImageMode { get; set; }Setzt den Modus für den Extraktionsprozess von Bildern.
ExtractTextMode { get; set; }Setzt den Modus für das Ergebnis der Textextraktion.
IsBidi { get; }Ist wahr, wenn der Text hebräische oder arabische Symbole enthält. Dieser Fall muss besonders berücksichtigt werden, da sich die String-Funktionen in ihrem Verhalten ändern und den Text von rechts nach links verarbeiten (außer Zahlen und anderen Nicht-Textzeichen).
Password { get; set; }Gibt das Passwort der Eingabedatei zurück oder setzt es.
Resolution { get; set; }Setzt oder gibt die Auflösung für extrahierte Bilder zurück. Der Standardwert ist 150. Bilder mit höherem Auflösungswert sind klarer. Eine Erhöhung des Auflösungswerts führt jedoch zu einer Erhöhung der benötigten Zeit und des Speichers für die Extraktion von Bildern. Um ein klares Bild zu erhalten, reicht es normalerweise aus, die Auflösung auf 150 oder 300 zu setzen.
StartPage { get; set; }Gibt die Startseite im Seitenbereich zurück oder setzt sie, in dem die Extraktionsoperation durchgeführt wird.
TextSearchOptions { get; set; }Gibt die Textsuchoptionen zurück oder setzt sie.

Methoden

NameBeschreibung
virtual BindPdf(Document)Initialisiert die Fassade.
override BindPdf(Stream)Bindet das PDF-Dokument aus dem Stream.
override BindPdf(string)Bindet die Eingabe-PDF-Datei.
virtual Close()Gibt das mit einer Fassade verbundene Aspose.Pdf.Document frei.
Dispose()Gibt die Fassade frei.
ExtractAttachment()Extrahiert Anhänge aus einem PDF-Dokument.
ExtractAttachment(string)Extrahiert einen Anhang zur PDF-Datei nach Anhängenamen.
ExtractImage()Extrahiert Bilder aus der PDF-Datei.
ExtractText()Extrahiert Text aus einem PDF-Dokument unter Verwendung von Unicode-Codierung.
ExtractText(Encoding)Extrahiert Text aus einem PDF-Dokument unter Verwendung der angegebenen Codierung.
GetAttachment()Speichert alle Anhangsdateien in Streams.
GetAttachment(string)Speichert den Anhang in einer Datei.
GetAttachmentInfo()Gibt die Liste der Anhänge zurück.
GetAttachNames()Gibt die Liste der Anhänge in der PDF-Datei zurück. Hinweis: ExtractAttachments muss vor der Verwendung dieser Methode aufgerufen werden.
GetNextImage(Stream)Ruft das nächste Bild aus der PDF-Datei ab und speichert es im Stream.
GetNextImage(string)Ruft das nächste Bild aus dem PDF-Dokument ab. Hinweis: ExtractImage muss vor der Verwendung dieser Methode aufgerufen werden.
GetNextImage(Stream, ImageFormat)Ruft das nächste Bild aus der PDF-Datei ab und speichert es im Stream im angegebenen Bildformat.
GetNextImage(string, ImageFormat)Ruft das nächste Bild aus dem PDF-Dokument im angegebenen Bildformat ab. Hinweis: ExtractImage muss vor der Verwendung dieser Methode aufgerufen werden.
GetNextPageText(Stream)Speichert den Text einer Seite im Stream.
GetNextPageText(string)Speichert den Text einer Seite in einer Datei.
GetText(Stream)Speichert Text im Stream. siehe auch:ExtractText
GetText(string)Speichert Text in einer Datei. siehe auch:ExtractText
GetText(Stream, bool)Speichert Text im Stream. siehe auch:ExtractText
HasNextImage()Überprüft, ob weitere Bilder im PDF-Dokument verfügbar sind. Hinweis: ExtractImage muss vor der Verwendung dieser Methode aufgerufen werden.
HasNextPageText()Gibt an, ob weitere Texte abgerufen werden können oder nicht.

Siehe auch