PdfExtractor

PdfExtractor class

从 PDF 文档中提取图像和文本的类。

public sealed class PdfExtractor : Facade

构造函数

姓名描述
PdfExtractor()初始化新的PdfExtractor对象.
PdfExtractor(Document)初始化新的PdfExtractor对象基于document.

特性

姓名描述
Document { get; }获取正在处理的文档外观。
EndPage { get; set; }获取或设置要执行提取操作的页范围内的结束页。
ExtractImageMode { get; set; }设置提取图像过程的模式。
ExtractTextMode { get; set; }设置提取文本结果的模式。
IsBidi { get; }当文本有希伯来文或阿拉伯文符号时为真。这种情况必须特别考虑,因为 字符串函数会改变它们的行为并从右到左开始处理文本(数字 和其他非文本字符除外)。
Password { get; set; }获取或设置输入文件的密码。
Resolution { get; set; }设置或获取提取图像的分辨率。 默认值为 150。 具有更大分辨率值的图像更清晰。 但是增加分辨率值会导致提取图像所需的时间和内存增加。 通常要获得清晰的图像就足够了将分辨率设置为 150 或 300.
StartPage { get; set; }获取或设置要执行提取操作的页范围内的起始页。
TextSearchOptions { get; set; }获取或设置文本搜索选项。

方法

姓名描述
virtual BindPdf(Document)初始化外观。
override BindPdf(Stream)从流中绑定 PDF 文档。
override BindPdf(string)绑定输入 PDF 文件。
virtual Close()处理与外观绑定的 Aspose.Pdf.Document。
Dispose()处理外观。
ExtractAttachment()从 Pdf 文档中提取附件。
ExtractAttachment(string)按附件名称提取 PDF 文件的附件。
ExtractImage()从 PDF 文件中提取图像。
ExtractText()使用 Unicode 编码从 Pdf 文档中提取文本。
ExtractText(Encoding)使用指定的编码从 Pdf 文档中提取文本。
GetAttachment()将所有附件文件保存到流中。
GetAttachment(string)将附件存储到文件中。
GetAttachmentInfo()获取附件列表。
GetAttachNames()返回 PDF 文件中的附件列表。注意:必须在使用此方法之前调用 ExtractAttachments。
GetNextImage(Stream)从 PDF 文件中检索下一个图像并将其存储到流中。
GetNextImage(string)从 PDF 文档中检索下一个图像。注意:ExtractImage 必须在使用此方法之前调用。
GetNextImage(Stream, ImageFormat)从 PDF 文件中检索下一个图像并将其存储到具有给定图像格式的流中。
GetNextImage(string, ImageFormat)从 PDF 文档中检索具有给定图像格式的下一个图像。注意:ExtractImage 必须在使用此方法之前调用。
GetNextPageText(Stream)将一页的文本保存到流中。
GetNextPageText(string)将一页的文本保存到文件中。
GetText(Stream)将文本保存到流中。也可以看看:ExtractText
GetText(string)将文本保存到文件。也可以看看:ExtractText
GetText(Stream, bool)将文本保存到流中。也可以看看:ExtractText
HasNextImage()检查是否可以在 PDF 文档中访问更多图像。注意:ExtractImage 必须在使用此方法之前调用。
HasNextPageText()表示是否可以获取更多文本。

也可以看看