提取 PDF 文件中的文本页面

本教程将指导您完成使用 Aspose.PDF for .NET 从 PDF 文件中的特定页面提取文本的过程。提供的 C# 源代码演示了必要的步骤。

要求

在开始之前，请确保您具备以下条件：

Visual Studio 或计算机上安装的任何其他 C# 编译器。
Aspose.PDF for .NET 库。您可以从 Aspose 官方网站下载它或使用 NuGet 等包管理器来安装它。

第 1 步：设置项目

在您首选的开发环境中创建一个新的 C# 项目。
添加对 Aspose.PDF for .NET 库的引用。

第2步：导入所需的命名空间

在要提取文本的代码文件中，在文件顶部添加以下 using 指令：

using Aspose.Pdf;
using System.IO;

第三步：设置文档目录

在代码中，找到显示以下内容的行string dataDir = "YOUR DOCUMENT DIRECTORY";并替换"YOUR DOCUMENT DIRECTORY"以及存储文档的目录的路径。

步骤 4：打开 PDF 文档

使用以下命令打开现有 PDF 文档Document构造函数并将路径传递给输入 PDF 文件。

Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");

步骤 5：从特定页面提取文本

创建一个TextAbsorber对象从文档中提取文本。通过访问它来接受所需页面的吸收器Pages的集合pdfDocument.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);

第6步：获取提取的文本

访问提取的文本TextAbsorber目的。

string extractedText = textAbsorber.Text;

第7步：保存提取的文本

创建一个TextWriter并打开要保存提取文本的文件。将提取的文本写入文件并关闭流。

dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();

使用 Aspose.PDF for .NET 提取文本页面的示例源代码

//文档目录的路径。
string dataDir = "YOUR DOCUMENT DIRECTORY";
//打开文档
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
//创建 TextAbsorber 对象来提取文本
TextAbsorber textAbsorber = new TextAbsorber();
//接受特定页面的吸收器
pdfDocument.Pages[1].Accept(textAbsorber);
//获取提取的文本
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
//创建编写器并打开文件
TextWriter tw = new StreamWriter(dataDir);
//将一行文本写入文件
tw.WriteLine(extractedText);
//关闭流
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);

结论

您已使用 Aspose.PDF for .NET 从 PDF 文档的特定页面成功提取文本。提取的文本已保存到指定的输出文件中。

常见问题解答

问：本教程的目的是什么？

答：本教程将指导您完成使用 Aspose.PDF for .NET 从 PDF 文件中的特定页面提取文本的过程。随附的 C# 源代码演示了实现此任务所需的步骤。

问：我应该导入哪些命名空间？

答：在您计划提取文本的代码文件中，在文件开头包含以下 using 指令：

using Aspose.Pdf;
using System.IO;

问：如何指定文档目录？

A：在代码中，找到这样一行：string dataDir = "YOUR DOCUMENT DIRECTORY";并替换"YOUR DOCUMENT DIRECTORY"与文档目录的实际路径。

问：如何打开现有的 PDF 文档？

答：在步骤 4 中，您将使用以下命令打开现有的 PDF 文档：Document构造函数并提供输入 PDF 文件的路径。

问：如何从特定页面提取文本？

答：第 5 步涉及创建TextAbsorber对象从 PDF 文档中提取文本。然后，您将通过访问所需页面来接受吸收器Pages的集合pdfDocument.

问：如何访问提取的文本？

答：第 6 步将引导您访问从TextAbsorber目的。

问：如何将提取的文本保存到文件中？

答：在第 7 步中，您将创建一个TextWriter，打开要保存提取的文本的文件，将提取的文本写入该文件，然后关闭流。

问：本教程的主要内容是什么？

答：通过学习本教程，您已经了解了如何使用 Aspose.PDF for .NET 从 PDF 文档的特定页面中提取文本。提取的文本已保存到指定的输出文件中，使您能够定位和分析特定页面的文本内容。