TextAbsorber

TextAbsorber class

表示文本的吸收器对象。 执行文本提取并通过以下方式访问结果Text对象.

public class TextAbsorber

构造函数

姓名 描述
TextAbsorber() 初始化TextAbsorber.
TextAbsorber(TextExtractionOptions) 初始化TextAbsorber带有提取选项。
TextAbsorber(TextSearchOptions) 初始化TextAbsorber带有文本搜索选项。
TextAbsorber(TextExtractionOptions, TextSearchOptions) 初始化TextAbsorber带有提取和文本搜索选项。

特性

姓名 描述
Errors { get; } 列表TextExtractionError对象。它包含有关在文本提取期间发现错误的信息。 仅当 TextSearchOptions.LogTextExtractionErrors = true 时才会执行错误搜索;它可能会降低性能。
virtual ExtractionOptions { get; set; } 获取或设置文本提取选项。
HasErrors { get; } 值表示在文本提取过程中是否发现错误。 只有在 TextSearchOptions.LogTextExtractionErrors = true 时才会执行错误搜索;它可能会降低性能。
virtual Text { get; } 获取提取的文本TextAbsorber在 PDF 文档或页面上提取。
virtual TextSearchOptions { get; set; } 获取或设置文本搜索选项。

方法

姓名 描述
virtual Visit(Document) 提取指定文档上的文本
virtual Visit(Page) 提取指定页面上的文本
virtual Visit(XForm) 提取指定 XForm 上的文本。

评论

TextAbsorber对象用于从 Pdf 文档或文档页面中提取文本。

例子

该示例演示了如何在 PDF 文档的第一个页面上提取文本。

// 打开文档
Document doc = new Document(inFile);

// 创建 TextAbsorber 对象以提取文本
TextAbsorber absorber = new TextAbsorber();

// 接受第一页的吸收器
doc.Pages[1].Accept(absorber);

// 获取提取的文本
string extractedText = absorber.Text;

也可以看看