Class PdfExtractor

Clase PdfExtractor

Clase para extraer imágenes y texto de un documento PDF.

public sealed class PdfExtractor : Facade

Constructores

NombreDescripción
PdfExtractor()Inicializa un nuevo objeto PdfExtractor.
PdfExtractor(Document)Inicializa un nuevo objeto PdfExtractor basado en el documento.

Propiedades

NombreDescripción
Document { get; }Obtiene el documento sobre el que está trabajando la fachada.
EndPage { get; set; }Obtiene o establece la página final en el rango de páginas donde se realizará la operación de extracción.
ExtractImageMode { get; set; }Establece el modo para el proceso de extracción de imágenes.
ExtractTextMode { get; set; }Establece el modo para el resultado de la extracción de texto.
IsBidi { get; }Es verdadero cuando el texto tiene símbolos hebreos o árabes. Este caso debe ser considerado especialmente porque las funciones de cadena cambian su comportamiento y comienzan a procesar el texto de derecha a izquierda (excepto números y otros caracteres no textuales).
Password { get; set; }Obtiene o establece la contraseña del archivo de entrada.
Resolution { get; set; }Establece o obtiene la resolución para las imágenes extraídas. El valor predeterminado es 150. Las imágenes que tienen un valor de resolución mayor son más claras. Sin embargo, aumentar el valor de resolución resulta en un aumento del tiempo y la memoria necesarios para extraer imágenes. Generalmente, para obtener una imagen clara, es suficiente establecer la resolución en 150 o 300.
StartPage { get; set; }Obtiene o establece la página de inicio en el rango de páginas donde se realizará la operación de extracción.
TextSearchOptions { get; set; }Obtiene o establece las opciones de búsqueda de texto.

Métodos

NombreDescripción
virtual BindPdf(Document)Inicializa la fachada.
override BindPdf(Stream)Vincula el documento PDF desde un flujo.
override BindPdf(string)Vincula el archivo PDF de entrada.
virtual Close()Libera el Aspose.Pdf.Document vinculado con una fachada.
Dispose()Libera la fachada.
ExtractAttachment()Extrae archivos adjuntos de un documento PDF.
ExtractAttachment(string)Extrae un archivo adjunto a un archivo PDF por nombre de archivo adjunto.
ExtractImage()Extrae imágenes de un archivo PDF.
ExtractText()Extrae texto de un documento PDF utilizando codificación Unicode.
ExtractText(Encoding)Extrae texto de un documento PDF utilizando la codificación especificada.
GetAttachment()Guarda todos los archivos adjuntos en flujos.
GetAttachment(string)Almacena el archivo adjunto en un archivo.
GetAttachmentInfo()Obtiene la lista de archivos adjuntos.
GetAttachNames()Devuelve la lista de archivos adjuntos en el archivo PDF. Nota: ExtractAttachments debe ser llamado antes de usar este método.
GetNextImage(Stream)Recupera la siguiente imagen del archivo PDF y la almacena en un flujo.
GetNextImage(string)Recupera la siguiente imagen del documento PDF. Nota: ExtractImage debe ser llamado antes de usar este método.
GetNextImage(Stream, ImageFormat)Recupera la siguiente imagen del archivo PDF y la almacena en un flujo con el formato de imagen dado.
GetNextImage(string, ImageFormat)Recupera la siguiente imagen del documento PDF con el formato de imagen dado. Nota: ExtractImage debe ser llamado antes de usar este método.
GetNextPageText(Stream)Guarda el texto de una página en un flujo.
GetNextPageText(string)Guarda el texto de una página en un archivo.
GetText(Stream)Guarda el texto en un flujo. ver también:ExtractText
GetText(string)Guarda el texto en un archivo. ver también:ExtractText
GetText(Stream, bool)Guarda el texto en un flujo. ver también:ExtractText
HasNextImage()Verifica si hay más imágenes accesibles en el documento PDF. Nota: ExtractImage debe ser llamado antes de usar este método.
HasNextPageText()Indica si se pueden obtener más textos o no.

Ver También