Class PdfExtractor

PdfExtractor class

用于从 PDF 文档中提取图像和文本的类。

public sealed class PdfExtractor : Facade

Constructors

Name	Description
PdfExtractor()	初始化新的 `PdfExtractor` 对象。
PdfExtractor(Document)	基于 document 初始化新的 `PdfExtractor` 对象。

Properties

Name	Description
Document { get; }	获取正在处理的文档外观。
EndPage { get; set; }	获取或设置提取操作将执行的页面范围的结束页。
ExtractImageMode { get; set; }	设置提取图像过程的模式。
ExtractTextMode { get; set; }	设置提取文本结果的模式。
IsBidi { get; }	当文本包含希伯来语或阿拉伯语符号时为真。此情况必须特别考虑，因为字符串函数会改变其行为，并开始从右到左处理文本（数字和其他非文本字符除外）。
Password { get; set; }	获取或设置输入文件的密码。
Resolution { get; set; }	设置或获取提取图像的分辨率。默认值为 150。分辨率值更大的图像更清晰。然而，增加分辨率值会导致提取图像所需的时间和内存增加。通常，为了获得清晰的图像，将分辨率设置为 150 或 300 就足够了。
StartPage { get; set; }	获取或设置提取操作将执行的页面范围的起始页。
TextSearchOptions { get; set; }	获取或设置文本搜索选项。

Methods

Name	Description
virtual BindPdf(Document)	初始化外观。
override BindPdf(Stream)	从流中绑定 PDF 文档。
override BindPdf(string)	绑定输入 PDF 文件。
virtual Close()	释放与外观绑定的 Aspose.Pdf.Document。
Dispose()	释放外观。
ExtractAttachment()	从 PDF 文档中提取附件。
ExtractAttachment(string)	通过附件名称提取 PDF 文件的附件。
ExtractImage()	从 PDF 文件中提取图像。
ExtractText()	使用 Unicode 编码从 PDF 文档中提取文本。
ExtractText(Encoding)	使用指定编码从 PDF 文档中提取文本。
GetAttachment()	将所有附件文件保存到流中。
GetAttachment(string)	将附件存储到文件中。
GetAttachmentInfo()	获取附件列表。
GetAttachNames()	返回 PDF 文件中的附件列表。注意：必须在使用此方法之前调用 ExtractAttachments。
GetNextImage(Stream)	从 PDF 文件中检索下一个图像并将其存储到流中。
GetNextImage(string)	从 PDF 文档中检索下一个图像。注意：必须在使用此方法之前调用 ExtractImage。
GetNextImage(Stream, ImageFormat)	从 PDF 文件中检索下一个图像并以给定图像格式将其存储到流中。
GetNextImage(string, ImageFormat)	以给定图像格式从 PDF 文档中检索下一个图像。注意：必须在使用此方法之前调用 ExtractImage。
GetNextPageText(Stream)	将一页的文本保存到流中。
GetNextPageText(string)	将一页的文本保存到文件中。
GetText(Stream)	将文本保存到流中。另见：`ExtractText`
GetText(string)	将文本保存到文件中。另见：`ExtractText`
GetText(Stream, bool)	将文本保存到流中。另见：`ExtractText`
HasNextImage()	检查 PDF 文档中是否还有更多图像可用。注意：必须在使用此方法之前调用 ExtractImage。
HasNextPageText()	指示是否可以获取更多文本。

Class PdfExtractor

PdfExtractor class

Constructors

Properties

Methods

See Also