PdfExtractor

PdfExtractor class

Класс для извлечения изображений и текста из документа PDF.

public sealed class PdfExtractor : Facade

Конструкторы

ИмяОписание
PdfExtractor()Инициализирует новыйPdfExtractor объект.
PdfExtractor(Document)Инициализирует новыйPdfExtractor объект на базеdocument .

Характеристики

ИмяОписание
Document { get; }Получает фасад документа, над которым работает.
EndPage { get; set; }Получает или задает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
ExtractImageMode { get; set; }Устанавливает режим для процесса извлечения изображений.
ExtractTextMode { get; set; }Устанавливает режим извлечения результата текста.
IsBidi { get; }Верно, если в тексте есть еврейские или арабские символы. Этот случай должен быть рассмотрен специально, т.к. строковые функции меняют свое поведение и начинают обрабатывать текст справа налево (кроме чисел и других нетекстовых символов).
Password { get; set; }Получает или устанавливает пароль входного файла.
Resolution { get; set; }Установка или получение разрешения для извлеченных изображений. Значение по умолчанию: 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение 150 или 300.
StartPage { get; set; }Получает или задает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
TextSearchOptions { get; set; }Получает или задает параметры текстового поиска.

Методы

ИмяОписание
virtual BindPdf(Document)Инициализирует фасад.
override BindPdf(Stream)Связывает PDF-документ из потока.
override BindPdf(string)Привязать входной файл PDF.
virtual Close()Удаляет Aspose.Pdf.Document, связанный с фасадом.
Dispose()Удаляет фасад.
ExtractAttachment()Извлекает вложения из документа PDF.
ExtractAttachment(string)Извлекает вложение в файл PDF по имени вложения.
ExtractImage()Извлечение изображений из файла PDF.
ExtractText()Извлекает текст из документа Pdf, используя кодировку Unicode.
ExtractText(Encoding)Извлекает текст из документа Pdf, используя указанную кодировку.
GetAttachment()Сохраняет все вложенные файлы в потоки.
GetAttachment(string)Сохраняет вложение в файл.
GetAttachmentInfo()Получает список вложений.
GetAttachNames()Возвращает список вложений в файле PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractAttachments.
GetNextImage(Stream)Получить следующее изображение из файла PDF и сохранить его в потоке.
GetNextImage(string)Получает следующее изображение из документа PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
GetNextImage(Stream, ImageFormat)Получить следующее изображение из файла PDF и сохранить его в поток с заданным форматом изображения.
GetNextImage(string, ImageFormat)Получает следующее изображение из документа PDF с заданным форматом изображения. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
GetNextPageText(Stream)Сохраняет текст одной страницы в поток.
GetNextPageText(string)Сохраняет текст одной страницы в файл.
GetText(Stream)Сохраняет текст в поток. смотрите также:ExtractText
GetText(string)Сохраняет текст в файл. смотрите также:ExtractText
GetText(Stream, bool)Сохраняет текст в поток. смотрите также:ExtractText
HasNextImage()Проверяет, доступны ли дополнительные изображения в документе PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
HasNextPageText()Указывает, можно ли получить больше текстов или нет.

Смотрите также