PdfExtractor

PdfExtractor class

Classe pour extraire des images et du texte d’un document PDF.

public sealed class PdfExtractor : Facade

Constructeurs

NomLa description
PdfExtractor()Initialise nouveauPdfExtractor objet.
PdfExtractor(Document)Initialise nouveauPdfExtractor objet sur la base de ladocument .

Propriétés

NomLa description
Document { get; }Obtient la façade du document sur laquelle travaille.
EndPage { get; set; }Obtient ou définit la page de fin dans la plage de pages où l’opération d’extraction sera effectuée.
ExtractImageMode { get; set; }Définit le mode de traitement des images d’extraction.
ExtractTextMode { get; set; }Définit le mode d’extraction du résultat du texte.
IsBidi { get; }Est vrai lorsque le texte contient des symboles hébreux ou arabes. Ce cas doit être particulièrement considéré car les fonctions de chaîne changent leur comportement et commencent à traiter le texte de droite à gauche (sauf les nombres et autres caractères non textuels).
Password { get; set; }Obtient ou définit le mot de passe du fichier d’entrée.
Resolution { get; set; }Définit ou obtient la résolution des images extraites. La valeur par défaut est 150. Les images qui ont une valeur de résolution supérieure sont plus claires. Cependant, l’augmentation de la valeur de résolution entraîne une augmentation du temps et de la mémoire nécessaires pour extraire les images. Habituellement, pour obtenir une image claire, c’est suffisant pour régler la résolution sur 150 ou 300.
StartPage { get; set; }Obtient ou définit la page de démarrage dans la plage de pages où l’opération d’extraction sera effectuée.
TextSearchOptions { get; set; }Obtient ou définit les options de recherche de texte.

Méthodes

NomLa description
virtual BindPdf(Document)Initialise la façade.
override BindPdf(Stream)Lie le document PDF à partir du flux.
override BindPdf(string)Lier le fichier PDF d’entrée.
virtual Close()Dispose Aspose.Pdf.Document relié avec une façade.
Dispose()Dispose la façade.
ExtractAttachment()Extrait les pièces jointes d’un document PDF.
ExtractAttachment(string)Extrait la pièce jointe au fichier PDF par nom de pièce jointe.
ExtractImage()Extraire des images d’un fichier PDF.
ExtractText()Extrait le texte d’un document PDF en utilisant l’encodage Unicode.
ExtractText(Encoding)Extrait le texte d’un document PDF en utilisant l’encodage spécifié.
GetAttachment()Enregistre tous les fichiers joints dans les flux.
GetAttachment(string)Stocke la pièce jointe dans le fichier.
GetAttachmentInfo()Obtient la liste des pièces jointes.
GetAttachNames()Renvoie la liste des pièces jointes dans le fichier PDF. Remarque : ExtractAttachments doit être appelé avant d’utiliser cette méthode.
GetNextImage(Stream)Récupérer l’image suivante du fichier PDF et la stocker dans le flux.
GetNextImage(string)Récupère l’image suivante du document PDF. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
GetNextImage(Stream, ImageFormat)Récupérer l’image suivante du fichier PDF et la stocker dans le flux avec le format d’image donné.
GetNextImage(string, ImageFormat)Récupère l’image suivante du document PDF avec le format d’image donné. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
GetNextPageText(Stream)Enregistre le texte d’une page à diffuser.
GetNextPageText(string)Enregistre le texte d’une page dans un fichier.
GetText(Stream)Enregistre le texte à diffuser. voir également:ExtractText
GetText(string)Enregistre le texte dans un fichier. voir également:ExtractText
GetText(Stream, bool)Enregistre le texte à diffuser. voir également:ExtractText
HasNextImage()Vérifie si plus d’images sont accessibles dans le document PDF. Remarque : ExtractImage doit être appelé avant d’utiliser cette méthode.
HasNextPageText()Indique si vous pouvez obtenir plus de textes ou non.

Voir également