TextAbsorber

TextAbsorber class

表示文本的吸收器对象。 执行文本提取并通过以下方式访问结果Text对象.

public class TextAbsorber

构造函数

姓名描述
TextAbsorber()初始化TextAbsorber.
TextAbsorber(TextExtractionOptions)初始化TextAbsorber带有提取选项。
TextAbsorber(TextSearchOptions)初始化TextAbsorber带有文本搜索选项。
TextAbsorber(TextExtractionOptions, TextSearchOptions)初始化TextAbsorber带有提取和文本搜索选项。

特性

姓名描述
Errors { get; }列表TextExtractionError对象。它包含有关在文本提取期间发现错误的信息。 仅当 TextSearchOptions.LogTextExtractionErrors = true 时才会执行错误搜索;它可能会降低性能。
virtual ExtractionOptions { get; set; }获取或设置文本提取选项。
HasErrors { get; }值表示在文本提取过程中是否发现错误。 只有在 TextSearchOptions.LogTextExtractionErrors = true 时才会执行错误搜索;它可能会降低性能。
virtual Text { get; }获取提取的文本TextAbsorber在 PDF 文档或页面上提取。
virtual TextSearchOptions { get; set; }获取或设置文本搜索选项。

方法

姓名描述
virtual Visit(Document)提取指定文档上的文本
virtual Visit(Page)提取指定页面上的文本
virtual Visit(XForm)提取指定 XForm 上的文本。

评论

TextAbsorber对象用于从 Pdf 文档或文档页面中提取文本。

例子

该示例演示了如何在 PDF 文档的第一个页面上提取文本。

// 打开文档
Document doc = new Document(inFile);

// 创建 TextAbsorber 对象以提取文本
TextAbsorber absorber = new TextAbsorber();

// 接受第一页的吸收器
doc.Pages[1].Accept(absorber);

// 获取提取的文本
string extractedText = absorber.Text;

也可以看看