PdfExtractor

PdfExtractor class

Clase para extraer imágenes y texto de un documento PDF.

public sealed class PdfExtractor : Facade

Constructores

NombreDescripción
PdfExtractor()Inicializa nuevoPdfExtractor objeto.
PdfExtractor(Document)Inicializa nuevoPdfExtractor objeto sobre la base de ladocument .

Propiedades

NombreDescripción
Document { get; }Obtiene la fachada del documento en la que está trabajando.
EndPage { get; set; }Obtiene o establece la página final en el rango de páginas donde se realizará la operación de extracción.
ExtractImageMode { get; set; }Establece el modo para el proceso de extracción de imágenes.
ExtractTextMode { get; set; }Establece el modo para extraer el resultado del texto.
IsBidi { get; }Es verdadero cuando el texto tiene símbolos hebreos o árabes. Este caso debe considerarse especialmente porque las funciones de cadena cambian su comportamiento y comienzan a procesar el texto de derecha a izquierda (excepto los números y otros caracteres que no son de texto).
Password { get; set; }Obtiene o establece la contraseña del archivo de entrada.
Resolution { get; set; }Establece u obtiene la resolución de las imágenes extraídas. El valor predeterminado es 150. Las imágenes que tienen un mayor valor de resolución son más claras. Sin embargo, al aumentar el valor de resolución, aumenta el tiempo y la memoria necesarios para extraer imágenes. Por lo general, para obtener una imagen clara es suficiente para establecer la resolución en 150 o 300.
StartPage { get; set; }Obtiene o establece la página de inicio en el rango de páginas donde se realizará la operación de extracción.
TextSearchOptions { get; set; }Obtiene o establece opciones de búsqueda de texto.

Métodos

NombreDescripción
virtual BindPdf(Document)Inicializa la fachada.
override BindPdf(Stream)Vincula el documento PDF desde la secuencia.
override BindPdf(string)Enlazar archivo PDF de entrada.
virtual Close()Elimina Aspose.Pdf.Document enlazado con una fachada.
Dispose()Elimina la fachada.
ExtractAttachment()Extrae archivos adjuntos de un documento PDF.
ExtractAttachment(string)Extrae adjuntos a archivos PDF por nombre de adjunto.
ExtractImage()Extraer imágenes del archivo PDF.
ExtractText()Extrae texto de un documento PDF utilizando la codificación Unicode.
ExtractText(Encoding)Extrae texto de un documento PDF utilizando la codificación especificada.
GetAttachment()Guarda todo el archivo adjunto en streams.
GetAttachment(string)Almacena el archivo adjunto en el archivo.
GetAttachmentInfo()Obtiene la lista de adjuntos.
GetAttachNames()Devuelve una lista de archivos adjuntos en un archivo PDF. Nota: se debe llamar a ExtractAttachments antes de usar este método.
GetNextImage(Stream)Recupera la siguiente imagen del archivo PDF y la almacena en la secuencia.
GetNextImage(string)Recupera la imagen siguiente del documento PDF. Nota: se debe llamar a ExtractImage antes de usar este método.
GetNextImage(Stream, ImageFormat)Recupera la siguiente imagen del archivo PDF y la almacena en el flujo con el formato de imagen dado.
GetNextImage(string, ImageFormat)Recupera la siguiente imagen del documento PDF con el formato de imagen dado. Nota: se debe llamar a ExtractImage antes de usar este método.
GetNextPageText(Stream)Guarda el texto de una página para transmitir.
GetNextPageText(string)Guarda el texto de una página en el archivo.
GetText(Stream)Guarda el texto en la secuencia. ver también:ExtractText
GetText(string)Guarda el texto en el archivo. ver también:ExtractText
GetText(Stream, bool)Guarda el texto en la secuencia. ver también:ExtractText
HasNextImage()Comprueba si hay más imágenes accesibles en el documento PDF. Nota: se debe llamar a ExtractImage antes de usar este método.
HasNextPageText()Indica si se pueden recibir más textos o no.

Ver también