PdfExtractor

PdfExtractor class

从 PDF 文档中提取图像和文本的类。

public sealed class PdfExtractor : Facade

构造函数

姓名 描述
PdfExtractor() 初始化新的PdfExtractor对象.
PdfExtractor(Document) 初始化新的PdfExtractor对象基于document.

特性

姓名 描述
Document { get; } 获取正在处理的文档外观。
EndPage { get; set; } 获取或设置要执行提取操作的页范围内的结束页。
ExtractImageMode { get; set; } 设置提取图像过程的模式。
ExtractTextMode { get; set; } 设置提取文本结果的模式。
IsBidi { get; } 当文本有希伯来文或阿拉伯文符号时为真。这种情况必须特别考虑,因为 字符串函数会改变它们的行为并从右到左开始处理文本(数字 和其他非文本字符除外)。
Password { get; set; } 获取或设置输入文件的密码。
Resolution { get; set; } 设置或获取提取图像的分辨率。 默认值为 150。 具有更大分辨率值的图像更清晰。 但是增加分辨率值会导致提取图像所需的时间和内存增加。 通常要获得清晰的图像就足够了将分辨率设置为 150 或 300.
StartPage { get; set; } 获取或设置要执行提取操作的页范围内的起始页。
TextSearchOptions { get; set; } 获取或设置文本搜索选项。

方法

姓名 描述
virtual BindPdf(Document) 初始化外观。
override BindPdf(Stream) 从流中绑定 PDF 文档。
override BindPdf(string) 绑定输入 PDF 文件。
virtual Close() 处理与外观绑定的 Aspose.Pdf.Document。
Dispose() 处理外观。
ExtractAttachment() 从 Pdf 文档中提取附件。
ExtractAttachment(string) 按附件名称提取 PDF 文件的附件。
ExtractImage() 从 PDF 文件中提取图像。
ExtractText() 使用 Unicode 编码从 Pdf 文档中提取文本。
ExtractText(Encoding) 使用指定的编码从 Pdf 文档中提取文本。
GetAttachment() 将所有附件文件保存到流中。
GetAttachment(string) 将附件存储到文件中。
GetAttachmentInfo() 获取附件列表。
GetAttachNames() 返回 PDF 文件中的附件列表。注意:必须在使用此方法之前调用 ExtractAttachments。
GetNextImage(Stream) 从 PDF 文件中检索下一个图像并将其存储到流中。
GetNextImage(string) 从 PDF 文档中检索下一个图像。注意:ExtractImage 必须在使用此方法之前调用。
GetNextImage(Stream, ImageFormat) 从 PDF 文件中检索下一个图像并将其存储到具有给定图像格式的流中。
GetNextImage(string, ImageFormat) 从 PDF 文档中检索具有给定图像格式的下一个图像。注意:ExtractImage 必须在使用此方法之前调用。
GetNextPageText(Stream) 将一页的文本保存到流中。
GetNextPageText(string) 将一页的文本保存到文件中。
GetText(Stream) 将文本保存到流中。也可以看看:ExtractText
GetText(string) 将文本保存到文件。也可以看看:ExtractText
GetText(Stream, bool) 将文本保存到流中。也可以看看:ExtractText
HasNextImage() 检查是否可以在 PDF 文档中访问更多图像。注意:ExtractImage 必须在使用此方法之前调用。
HasNextPageText() 表示是否可以获取更多文本。

也可以看看