PdfExtractor

PdfExtractor class

从 PDF 文档中提取图像和文本的类。

public sealed class PdfExtractor : Facade

构造函数

姓名	描述
PdfExtractor()	初始化新的`PdfExtractor`对象.
PdfExtractor(Document)	初始化新的`PdfExtractor`对象基于document.

特性

姓名	描述
Document { get; }	获取正在处理的文档外观。
EndPage { get; set; }	获取或设置要执行提取操作的页范围内的结束页。
ExtractImageMode { get; set; }	设置提取图像过程的模式。
ExtractTextMode { get; set; }	设置提取文本结果的模式。
IsBidi { get; }	当文本有希伯来文或阿拉伯文符号时为真。这种情况必须特别考虑，因为字符串函数会改变它们的行为并从右到左开始处理文本（数字和其他非文本字符除外）。
Password { get; set; }	获取或设置输入文件的密码。
Resolution { get; set; }	设置或获取提取图像的分辨率。默认值为 150。具有更大分辨率值的图像更清晰。但是增加分辨率值会导致提取图像所需的时间和内存增加。通常要获得清晰的图像就足够了将分辨率设置为 150 或 300.
StartPage { get; set; }	获取或设置要执行提取操作的页范围内的起始页。
TextSearchOptions { get; set; }	获取或设置文本搜索选项。

方法

姓名	描述
virtual BindPdf(Document)	初始化外观。
override BindPdf(Stream)	从流中绑定 PDF 文档。
override BindPdf(string)	绑定输入 PDF 文件。
virtual Close()	处理与外观绑定的 Aspose.Pdf.Document。
Dispose()	处理外观。
ExtractAttachment()	从 Pdf 文档中提取附件。
ExtractAttachment(string)	按附件名称提取 PDF 文件的附件。
ExtractImage()	从 PDF 文件中提取图像。
ExtractText()	使用 Unicode 编码从 Pdf 文档中提取文本。
ExtractText(Encoding)	使用指定的编码从 Pdf 文档中提取文本。
GetAttachment()	将所有附件文件保存到流中。
GetAttachment(string)	将附件存储到文件中。
GetAttachmentInfo()	获取附件列表。
GetAttachNames()	返回 PDF 文件中的附件列表。注意：必须在使用此方法之前调用 ExtractAttachments。
GetNextImage(Stream)	从 PDF 文件中检索下一个图像并将其存储到流中。
GetNextImage(string)	从 PDF 文档中检索下一个图像。注意：ExtractImage 必须在使用此方法之前调用。
GetNextImage(Stream, ImageFormat)	从 PDF 文件中检索下一个图像并将其存储到具有给定图像格式的流中。
GetNextImage(string, ImageFormat)	从 PDF 文档中检索具有给定图像格式的下一个图像。注意：ExtractImage 必须在使用此方法之前调用。
GetNextPageText(Stream)	将一页的文本保存到流中。
GetNextPageText(string)	将一页的文本保存到文件中。
GetText(Stream)	将文本保存到流中。也可以看看：`ExtractText`
GetText(string)	将文本保存到文件。也可以看看：`ExtractText`
GetText(Stream, bool)	将文本保存到流中。也可以看看：`ExtractText`
HasNextImage()	检查是否可以在 PDF 文档中访问更多图像。注意：ExtractImage 必须在使用此方法之前调用。
HasNextPageText()	表示是否可以获取更多文本。

也可以看看

class Facade
命名空间 Aspose.Pdf.Facades
部件 Aspose.PDF

PdfConverter PdfFileEditor