TextDevice

TextDevice class

表示将 pdf 文档页面转换为文本的类。

public sealed class TextDevice : PageDevice

构造函数

姓名 描述
TextDevice() 初始化TextDevice使用原始文本格式化模式和 Unicode 文本编码。
TextDevice(Encoding) 初始化TextDevice对于指定的编码。
TextDevice(TextExtractionOptions) 初始化TextDevice带有文本提取选项。
TextDevice(TextExtractionOptions, Encoding) 初始化TextDevice对于带有文本提取选项的指定编码。

特性

姓名 描述
Encoding { get; set; } 获取或设置提取文本的编码。
ExtractionOptions { get; set; } 获取或设置文本提取选项。

方法

姓名 描述
override Process(Page, Stream) 转换页面并将其保存为文本流。
Process(Page, string) 在给定页面上执行一些操作并将结果保存到文件中。

评论

TextDevice对象基本上用于从 pdf 页面中提取文本。

例子

该示例演示了如何在 PDF 文档的第一个页面上提取文本。

Document doc = new Document(inFile);
string extractedText;

using (MemoryStream ms = new MemoryStream())
{
    // 创建文本设备
    TextDevice device = new TextDevice();

    // 转换页面并将文本保存到流中
    device.Process(doc.Pages[1], ms);

    // 使用提取的文本
    ms.Close();
    extractedText = Encoding.Unicode.GetString(ms.ToArray());
}

也可以看看