Class PdfExtractor

Класс PdfExtractor

Класс для извлечения изображений и текста из PDF документа.

public sealed class PdfExtractor : Facade

Конструкторы

ИмяОписание
PdfExtractor()Инициализирует новый объект PdfExtractor.
PdfExtractor(Document)Инициализирует новый объект PdfExtractor на основе документа.

Свойства

ИмяОписание
Document { get; }Получает фасад документа, с которым работает.
EndPage { get; set; }Получает или устанавливает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
ExtractImageMode { get; set; }Устанавливает режим для процесса извлечения изображений.
ExtractTextMode { get; set; }Устанавливает режим для результата извлечения текста.
IsBidi { get; }Истинно, когда текст содержит еврейские или арабские символы. Этот случай должен рассматриваться особенно, потому что функции строк изменяют свое поведение и начинают обрабатывать текст справа налево (за исключением чисел и других не текстовых символов).
Password { get; set; }Получает или устанавливает пароль входного файла.
Resolution { get; set; }Устанавливает или получает разрешение для извлеченных изображений. Значение по умолчанию — 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение на 150 или 300.
StartPage { get; set; }Получает или устанавливает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
TextSearchOptions { get; set; }Получает или устанавливает параметры поиска текста.

Методы

ИмяОписание
virtual BindPdf(Document)Инициализирует фасад.
override BindPdf(Stream)Привязывает PDF документ из потока.
override BindPdf(string)Привязывает входной PDF файл.
virtual Close()Освобождает Aspose.Pdf.Document, связанный с фасадом.
Dispose()Освобождает фасад.
ExtractAttachment()Извлекает вложения из PDF документа.
ExtractAttachment(string)Извлекает вложение в PDF файл по имени вложения.
ExtractImage()Извлекает изображения из PDF файла.
ExtractText()Извлекает текст из PDF документа с использованием кодировки Unicode.
ExtractText(Encoding)Извлекает текст из PDF документа с использованием указанной кодировки.
GetAttachment()Сохраняет все файлы вложений в потоки.
GetAttachment(string)Сохраняет вложение в файл.
GetAttachmentInfo()Получает список вложений.
GetAttachNames()Возвращает список вложений в PDF файле. Примечание: Метод ExtractAttachments должен быть вызван перед использованием этого метода.
GetNextImage(Stream)Извлекает следующее изображение из PDF файла и сохраняет его в поток.
GetNextImage(string)Извлекает следующее изображение из PDF документа. Примечание: Метод ExtractImage должен быть вызван перед использованием этого метода.
GetNextImage(Stream, ImageFormat)Извлекает следующее изображение из PDF файла и сохраняет его в поток с заданным форматом изображения.
GetNextImage(string, ImageFormat)Извлекает следующее изображение из PDF документа с заданным форматом изображения. Примечание: Метод ExtractImage должен быть вызван перед использованием этого метода.
GetNextPageText(Stream)Сохраняет текст одной страницы в поток.
GetNextPageText(string)Сохраняет текст одной страницы в файл.
GetText(Stream)Сохраняет текст в поток. см. также:ExtractText
GetText(string)Сохраняет текст в файл. см. также:ExtractText
GetText(Stream, bool)Сохраняет текст в поток. см. также:ExtractText
HasNextImage()Проверяет, доступны ли еще изображения в PDF документе. Примечание: Метод ExtractImage должен быть вызван перед использованием этого метода.
HasNextPageText()Указывает, можно ли получить больше текстов или нет.

См. также