TextParagraphAbsorber

Наследование: java.lang.Object, com.aspose.pdf.TextAbsorber

public final class TextParagraphAbsorber extends TextAbsorber

Представляет объект-поглотитель текстовых абзацев. Выполняет текстовый поиск и предоставляет доступ к результатам поиска через коллекцию TextParagraphAbsorber.TextParagraphs.

Конструкторы

КонструкторОписание
TextParagraphAbsorber(Rectangle[] rectangles)Инициализирует новый экземпляр TextParagraphAbsorber с коллекцией прямоугольников.

Методы

МетодОписание
equals(Object arg0)
getClass()
getErrors()Список объектов TextExtractionError.
getExtractionOptions()Получает параметры извлечения текста.
getRectangles()Получает прямоугольники, используемые TextParagraphAbsorber для поиска текстовых абзацев в документе или странице PDF.
getText()Получает извлеченный текст, который TextAbsorber извлекает из документа или страницы PDF.
getTextParagraphs()Получает коллекцию вхождений поиска, представленных объектами TextParagraph.
getTextSearchOptions()Получает параметры поиска текста.
hasErrors()Значение указывает, были ли обнаружены ошибки при извлечении текста.
hashCode()
notify()
notifyAll()
setExtractionOptions(TextExtractionOptions value)Задает параметры извлечения текста.
setRectangles(Rectangle[] value)Задает прямоугольники, используемые TextParagraphAbsorber для поиска текстовых абзацев в документе или странице PDF.
setTextParagraphs(TextParagraphCollection value)Задает коллекцию вхождений поиска, представленных объектами TextParagraph.
setTextSearchOptions(TextSearchOptions value)Задает параметры поиска текста.
toString()
visit(IDocument pdf)Извлекает текст из указанного документа
visit(Page page)Выполняет поиск на указанной странице.
visit(XForm form)Извлекает текст из указанной формы XForm.
wait()
wait(long arg0)
wait(long arg0, int arg1)

TextParagraphAbsorber(Rectangle[] rectangles)

public TextParagraphAbsorber(Rectangle[] rectangles)

Инициализирует новый экземпляр TextParagraphAbsorber с коллекцией прямоугольников.

Параметры:

ПараметрТипОписание
rectanglesRectangle[]Прямоугольники абзацев.

Поглотитель будет искать текст и возвращать абзацы, соответствующие прямоугольникам.|

equals(Object arg0)

public boolean equals(Object arg0)

Параметры:

ПараметрТипОписание
arg0java.lang.Object

Возвращает: логический

getClass()

public final native Class<?> getClass()

Возвращает: java.lang.Класс

getErrors()

public List<TextExtractionError> getErrors()

Список объектов TextExtractionError. Он содержит информацию об ошибках, обнаруженных при извлечении текста. Поиск ошибок будет производиться, только если TextSearchOptions.LogTextExtractionErrors = true; И это может снизить производительность.

Возвращает: java.util.List<com.aspose.pdf.TextExtractionError> — Список объектов TextExtractionError

getExtractionOptions()

public TextExtractionOptions getExtractionOptions()

Получает параметры извлечения текста.


The example demonstrates how to set Pure text formatting mode and perform text extraction.
 
 // открыть документ
 Document doc = new Document(inFile);
 // создать объект TextAbsorber для извлечения текста с форматированием
 TextAbsorber absorber = new TextAbsorber();
 // установить режим форматирования чистого текста
 absorber.setExtractionOptions ( new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
 // принять поглотитель для всех страниц документа
 doc.getPages().accept(absorber);
 // получить извлеченный текст
 String extractedText = absorber.getText();

Позволяет определить режим форматирования текста TextExtractionOptions во время извлечения. Режим по умолчанию — TextExtractionOptions.TextFormattingMode.Pure.

Возвращает: TextExtractionOptions - Значение TextExtractionOptions

getRectangles()

public Rectangle[] getRectangles()

Получает прямоугольники, используемые TextParagraphAbsorber для поиска текстовых абзацев в документе или странице PDF.

Возвращает: com.aspose.pdf.Прямоугольник[] - массив прямоугольников

getText()

public String getText()

Получает извлеченный текст, который TextAbsorber извлекает из документа или страницы PDF.

Возвращает: java.lang.String — строковое значение


The example demonstrates how to extract text from all pages of the PDF document.
 
 // открыть документ
 Document doc = new Document(inFile);
 // создать объект TextAbsorber для извлечения текста
 TextAbsorber absorber = new TextAbsorber();
 // принять поглотитель для всех страниц документа
 doc.getPages().accept(absorber);
 // получить извлеченный текст
 String extractedText = absorber.getText();

getTextParagraphs()

public TextParagraphCollection getTextParagraphs()

Получает коллекцию вхождений поиска, представленных объектами TextParagraph.

Возвращает: TextParagraphCollection - Значение TextParagraphCollection

getTextSearchOptions()

public TextSearchOptions getTextSearchOptions()

Получает параметры поиска текста.

Позволяет определить прямоугольник, ограничивающий извлекаемый текст. По умолчанию прямоугольник пустой. Это означает, что границы страницы определяют только область извлечения текста.

Возвращает: TextSearchOptions - Значение TextSearchOptions

hasErrors()

public boolean hasErrors()

Значение указывает, были ли обнаружены ошибки при извлечении текста. Поиск ошибок будет производиться, только если TextSearchOptions.LogTextExtractionErrors = true; И это может снизить производительность.

Возвращает: boolean - логическое значение

hashCode()

public native int hashCode()

Возвращает: инт

notify()

public final native void notify()

notifyAll()

public final native void notifyAll()

setExtractionOptions(TextExtractionOptions value)

public void setExtractionOptions(TextExtractionOptions value)

Задает параметры извлечения текста.


The example demonstrates how to set Pure text formatting mode and perform text extraction.
 
 // открыть документ
 Document doc = new Document(inFile);
 // создать объект TextAbsorber для извлечения текста с форматированием
 TextAbsorber absorber = new TextAbsorber();
 // установить режим форматирования чистого текста
 absorber.setExtractionOptions ( new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
 // принять поглотитель для всех страниц документа
 doc.getPages().accept(absorber);
 // получить извлеченный текст
 String extractedText = absorber.getText();

Позволяет определить режим форматирования текста TextExtractionOptions во время извлечения. Режим по умолчанию — TextExtractionOptions.TextFormattingMode.Pure.

Параметры:

ПараметрТипОписание
valueTextExtractionOptionsЗначение TextExtractionOptions

setRectangles(Rectangle[] value)

public void setRectangles(Rectangle[] value)

Задает прямоугольники, используемые TextParagraphAbsorber для поиска текстовых абзацев в документе или странице PDF.

Параметры:

ПараметрТипОписание
valueRectangle[]прямоугольный массив

setTextParagraphs(TextParagraphCollection value)

public void setTextParagraphs(TextParagraphCollection value)

Задает коллекцию вхождений поиска, представленных объектами TextParagraph.

Параметры:

ПараметрТипОписание
valueTextParagraphCollectionЗначение TextParagraphCollection

setTextSearchOptions(TextSearchOptions value)

public void setTextSearchOptions(TextSearchOptions value)

Задает параметры поиска текста.

Позволяет определить прямоугольник, ограничивающий извлекаемый текст. По умолчанию прямоугольник пустой. Это означает, что границы страницы определяют только область извлечения текста.

Параметры:

ПараметрТипОписание
valueTextSearchOptionsЗначение TextSearchOptions

toString()

public String toString()

Возвращает: java.lang.String

visit(IDocument pdf)

public void visit(IDocument pdf)

Извлекает текст из указанного документа


The example demonstrates how to extract text on PDF document.
 
 // открыть документ
 Document doc = new Document(inFile);
 // создать объект TextAbsorber для извлечения текста
 TextAbsorber absorber = new TextAbsorber();
 // принять поглотитель для всех страниц документа
 absorber.visit(doc);
 // получить извлеченный текст
 String extractedText = absorber.getText();

Параметры:

ПараметрТипОписание
pdfIDocumentPdf объект документа.

visit(Page page)

public void visit(Page page)

Выполняет поиск на указанной странице.

Параметры:

ПараметрТипОписание
pagePageОбъект страницы

visit(XForm form)

public void visit(XForm form)

Извлекает текст из указанной формы XForm.


The example demonstrates how to extract text on the first PDF document page.
 
  // открыть документ
  Document doc = new Document(inFile);
  
  // создать объект TextAbsorber для извлечения текста
  TextAbsorber absorber = new TextAbsorber();
   
  // принять поглотитель для всех страниц документа
  absorber.visit(doc.Pages().get(1).getResources().getForms().get("Xform1"));
     
  // получить извлеченный текст
  String extractedText = absorber.getText();

Параметры:

ПараметрТипОписание
formXFormОбъект формы PDF.

wait()

public final void wait()

wait(long arg0)

public final native void wait(long arg0)

Параметры:

ПараметрТипОписание
arg0long

wait(long arg0, int arg1)

public final void wait(long arg0, int arg1)

Параметры:

ПараметрТипОписание
arg0long
arg1int