Class PdfExtractor

PdfExtractor class

用于从 PDF 文档中提取图像和文本的类。

public sealed class PdfExtractor : Facade

Constructors

NameDescription
PdfExtractor()初始化新的 PdfExtractor 对象。
PdfExtractor(Document)基于 document 初始化新的 PdfExtractor 对象。

Properties

NameDescription
Document { get; }获取正在处理的文档外观。
EndPage { get; set; }获取或设置提取操作将执行的页面范围的结束页。
ExtractImageMode { get; set; }设置提取图像过程的模式。
ExtractTextMode { get; set; }设置提取文本结果的模式。
IsBidi { get; }当文本包含希伯来语或阿拉伯语符号时为真。此情况必须特别考虑,因为字符串函数会改变其行为,并开始从右到左处理文本(数字和其他非文本字符除外)。
Password { get; set; }获取或设置输入文件的密码。
Resolution { get; set; }设置或获取提取图像的分辨率。默认值为 150。分辨率值更大的图像更清晰。然而,增加分辨率值会导致提取图像所需的时间和内存增加。通常,为了获得清晰的图像,将分辨率设置为 150 或 300 就足够了。
StartPage { get; set; }获取或设置提取操作将执行的页面范围的起始页。
TextSearchOptions { get; set; }获取或设置文本搜索选项。

Methods

NameDescription
virtual BindPdf(Document)初始化外观。
override BindPdf(Stream)从流中绑定 PDF 文档。
override BindPdf(string)绑定输入 PDF 文件。
virtual Close()释放与外观绑定的 Aspose.Pdf.Document。
Dispose()释放外观。
ExtractAttachment()从 PDF 文档中提取附件。
ExtractAttachment(string)通过附件名称提取 PDF 文件的附件。
ExtractImage()从 PDF 文件中提取图像。
ExtractText()使用 Unicode 编码从 PDF 文档中提取文本。
ExtractText(Encoding)使用指定编码从 PDF 文档中提取文本。
GetAttachment()将所有附件文件保存到流中。
GetAttachment(string)将附件存储到文件中。
GetAttachmentInfo()获取附件列表。
GetAttachNames()返回 PDF 文件中的附件列表。注意:必须在使用此方法之前调用 ExtractAttachments。
GetNextImage(Stream)从 PDF 文件中检索下一个图像并将其存储到流中。
GetNextImage(string)从 PDF 文档中检索下一个图像。注意:必须在使用此方法之前调用 ExtractImage。
GetNextImage(Stream, ImageFormat)从 PDF 文件中检索下一个图像并以给定图像格式将其存储到流中。
GetNextImage(string, ImageFormat)以给定图像格式从 PDF 文档中检索下一个图像。注意:必须在使用此方法之前调用 ExtractImage。
GetNextPageText(Stream)将一页的文本保存到流中。
GetNextPageText(string)将一页的文本保存到文件中。
GetText(Stream)将文本保存到流中。另见:ExtractText
GetText(string)将文本保存到文件中。另见:ExtractText
GetText(Stream, bool)将文本保存到流中。另见:ExtractText
HasNextImage()检查 PDF 文档中是否还有更多图像可用。注意:必须在使用此方法之前调用 ExtractImage。
HasNextPageText()指示是否可以获取更多文本。

See Also