TextAbsorber
Наследование: java.lang.Object
public class TextAbsorber
Представляет объект-поглотитель текста. Выполняет извлечение текста и предоставляет доступ к результату через объект TextAbsorber.Text.
The example demonstrates how to extract text on the first PDF document page.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для первой страницы
doc.getPages().get(1).accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
Объект TextAbsorber используется для извлечения текста из документа Pdf или страницы документа.
Конструкторы
Конструктор | Описание |
---|---|
TextAbsorber() | Инициализирует новый экземпляр TextAbsorber. |
TextAbsorber(TextExtractionOptions extractionOptions) | Инициализирует новый экземпляр TextAbsorber с параметрами извлечения. |
TextAbsorber(TextExtractionOptions extractionOptions, TextSearchOptions textSearchOptions) | Инициализирует новый экземпляр TextAbsorber с параметрами извлечения и поиска текста. |
TextAbsorber(TextSearchOptions textSearchOptions) | Инициализирует новый экземпляр TextAbsorber с параметрами текстового поиска. |
Методы
Метод | Описание |
---|---|
equals(Object arg0) | |
getClass() | |
getErrors() | Список объектов TextExtractionError. |
getExtractionOptions() | Получает параметры извлечения текста. |
getText() | Получает извлеченный текст, который TextAbsorber извлекает из документа или страницы PDF. |
getTextSearchOptions() | Получает параметры поиска текста. |
hasErrors() | Значение указывает, были ли обнаружены ошибки при извлечении текста. |
hashCode() | |
notify() | |
notifyAll() | |
setExtractionOptions(TextExtractionOptions value) | Задает параметры извлечения текста. |
setTextSearchOptions(TextSearchOptions value) | Задает параметры поиска текста. |
toString() | |
visit(IDocument pdf) | Извлекает текст из указанного документа |
visit(Page page) | Извлекает текст на указанной странице |
visit(XForm form) | Извлекает текст из указанной формы XForm. |
wait() | |
wait(long arg0) | |
wait(long arg0, int arg1) |
TextAbsorber()
public TextAbsorber()
Инициализирует новый экземпляр TextAbsorber.
The example demonstrates how to extract text from all pages of the PDF document.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для всех страниц документа
doc.getPages().accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
Выполняет извлечение текста и предоставляет доступ к извлеченному тексту через объект TextAbsorber.Text.
TextAbsorber(TextExtractionOptions extractionOptions)
public TextAbsorber(TextExtractionOptions extractionOptions)
Инициализирует новый экземпляр TextAbsorber с параметрами извлечения.
The example demonstrates how to extract text from all pages of the PDF document.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста с форматированием
TextAbsorber absorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// принять поглотитель для всех страниц документа
doc.getPages().accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
Выполняет извлечение текста и предоставляет доступ к извлеченному тексту через объект TextAbsorber.Text.
Параметры:
Параметр | Тип | Описание |
---|---|---|
extractionOptions | TextExtractionOptions | Параметры извлечения текста |
——————–|
TextAbsorber(TextExtractionOptions extractionOptions, TextSearchOptions textSearchOptions)
public TextAbsorber(TextExtractionOptions extractionOptions, TextSearchOptions textSearchOptions)
Инициализирует новый экземпляр TextAbsorber с параметрами извлечения и поиска текста.
Параметры:
Параметр | Тип | Описание |
---|---|---|
extractionOptions | TextExtractionOptions | Параметры извлечения текста |
textSearchOptions | TextSearchOptions | Параметры текстового поиска |
Выполняет извлечение текста и предоставляет доступ к извлеченному тексту через объект TextAbsorber.Text.|
TextAbsorber(TextSearchOptions textSearchOptions)
public TextAbsorber(TextSearchOptions textSearchOptions)
Инициализирует новый экземпляр TextAbsorber с параметрами текстового поиска.
Параметры:
Параметр | Тип | Описание |
---|---|---|
textSearchOptions | TextSearchOptions | Параметры текстового поиска |
Выполняет извлечение текста и предоставляет доступ к извлеченному тексту через объект TextAbsorber.Text.|
equals(Object arg0)
public boolean equals(Object arg0)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | java.lang.Object |
Возвращает: логический
getClass()
public final native Class<?> getClass()
Возвращает: java.lang.Класс
getErrors()
public List<TextExtractionError> getErrors()
Список объектов TextExtractionError. Он содержит информацию об ошибках, обнаруженных при извлечении текста. Поиск ошибок будет производиться, только если TextSearchOptions.LogTextExtractionErrors = true; И это может снизить производительность.
Возвращает: java.util.List<com.aspose.pdf.TextExtractionError> — Список объектов TextExtractionError
getExtractionOptions()
public TextExtractionOptions getExtractionOptions()
Получает параметры извлечения текста.
The example demonstrates how to set Pure text formatting mode and perform text extraction.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста с форматированием
TextAbsorber absorber = new TextAbsorber();
// установить режим форматирования чистого текста
absorber.setExtractionOptions ( new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// принять поглотитель для всех страниц документа
doc.getPages().accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
Позволяет определить режим форматирования текста TextExtractionOptions во время извлечения. Режим по умолчанию — TextExtractionOptions.TextFormattingMode.Pure.
Возвращает: TextExtractionOptions - Значение TextExtractionOptions
getText()
public String getText()
Получает извлеченный текст, который TextAbsorber извлекает из документа или страницы PDF.
Возвращает: java.lang.String — строковое значение
The example demonstrates how to extract text from all pages of the PDF document.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для всех страниц документа
doc.getPages().accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
getTextSearchOptions()
public TextSearchOptions getTextSearchOptions()
Получает параметры поиска текста.
Позволяет определить прямоугольник, ограничивающий извлекаемый текст. По умолчанию прямоугольник пустой. Это означает, что границы страницы определяют только область извлечения текста.
Возвращает: TextSearchOptions - Значение TextSearchOptions
hasErrors()
public boolean hasErrors()
Значение указывает, были ли обнаружены ошибки при извлечении текста. Поиск ошибок будет производиться, только если TextSearchOptions.LogTextExtractionErrors = true; И это может снизить производительность.
Возвращает: boolean - логическое значение
hashCode()
public native int hashCode()
Возвращает: инт
notify()
public final native void notify()
notifyAll()
public final native void notifyAll()
setExtractionOptions(TextExtractionOptions value)
public void setExtractionOptions(TextExtractionOptions value)
Задает параметры извлечения текста.
The example demonstrates how to set Pure text formatting mode and perform text extraction.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста с форматированием
TextAbsorber absorber = new TextAbsorber();
// установить режим форматирования чистого текста
absorber.setExtractionOptions ( new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// принять поглотитель для всех страниц документа
doc.getPages().accept(absorber);
// получить извлеченный текст
String extractedText = absorber.getText();
Позволяет определить режим форматирования текста TextExtractionOptions во время извлечения. Режим по умолчанию — TextExtractionOptions.TextFormattingMode.Pure.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | TextExtractionOptions | Значение TextExtractionOptions |
setTextSearchOptions(TextSearchOptions value)
public void setTextSearchOptions(TextSearchOptions value)
Задает параметры поиска текста.
Позволяет определить прямоугольник, ограничивающий извлекаемый текст. По умолчанию прямоугольник пустой. Это означает, что границы страницы определяют только область извлечения текста.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | TextSearchOptions | Значение TextSearchOptions |
toString()
public String toString()
Возвращает: java.lang.String
visit(IDocument pdf)
public void visit(IDocument pdf)
Извлекает текст из указанного документа
The example demonstrates how to extract text on PDF document.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для всех страниц документа
absorber.visit(doc);
// получить извлеченный текст
String extractedText = absorber.getText();
Параметры:
Параметр | Тип | Описание |
---|---|---|
IDocument | Pdf объект документа. |
visit(Page page)
public void visit(Page page)
Извлекает текст на указанной странице
The example demonstrates how to extract text on the first PDF document page.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для всех страниц документа
absorber.visit(doc.getPages(1));
// получить извлеченный текст
String extractedText = absorber.getText();
Параметры:
Параметр | Тип | Описание |
---|---|---|
page | Page | Объект страницы документа Pdf. |
visit(XForm form)
public void visit(XForm form)
Извлекает текст из указанной формы XForm.
The example demonstrates how to extract text on the first PDF document page.
// открыть документ
Document doc = new Document(inFile);
// создать объект TextAbsorber для извлечения текста
TextAbsorber absorber = new TextAbsorber();
// принять поглотитель для всех страниц документа
absorber.visit(doc.Pages().get(1).getResources().getForms().get("Xform1"));
// получить извлеченный текст
String extractedText = absorber.getText();
Параметры:
Параметр | Тип | Описание |
---|---|---|
form | XForm | Объект формы PDF. |
wait()
public final void wait()
wait(long arg0)
public final native void wait(long arg0)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | long |
wait(long arg0, int arg1)
public final void wait(long arg0, int arg1)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | long | |
arg1 | int |