提取 PDF 文件中的全部文本

本教學將引導您完成使用 Aspose.PDF for .NET 擷取 PDF 檔案中所有文字的流程。提供的 C# 原始程式碼演示了必要的步驟。

要求

在開始之前，請確保您具備以下條件：

Visual Studio 或電腦上安裝的任何其他 C# 編譯器。
Aspose.PDF for .NET 函式庫。您可以從 Aspose 官方網站下載它或使用 NuGet 等套件管理器來安裝它。

第 1 步：設定項目

在您首選的開發環境中建立一個新的 C# 專案。
新增對 Aspose.PDF for .NET 函式庫的參考。

步驟2：導入所需的命名空間

在要擷取文字的程式碼檔案中，在檔案頂部加入以下 using 指令：

using Aspose.Pdf;
using System.IO;

第三步：設定文檔目錄

在程式碼中，找到顯示以下內容的行string dataDir = "YOUR DOCUMENT DIRECTORY";並替換"YOUR DOCUMENT DIRECTORY"以及儲存文檔的目錄的路徑。

步驟 4：開啟 PDF 文檔

使用以下命令開啟現有 PDF 文檔Document建構函數並將路徑傳遞給輸入 PDF 檔案。

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

第 5 步：提取所有文本

創建一個TextAbsorber物件從文件中提取文字。然後，接受所有頁面的吸收器。

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);

步驟6：獲取提取的文本

訪問提取的文本TextAbsorber目的。

string extractedText = textAbsorber.Text;

步驟7：保存提取的文本

創建一個TextWriter並開啟要儲存提取文字的檔案。將提取的文字寫入檔案並關閉串流。

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

使用 Aspose.PDF for .NET 擷取全部文字的範例原始碼

//文檔目錄的路徑。
string dataDir = "YOUR DOCUMENT DIRECTORY";
//開啟文件
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
//建立 TextAbsorber 物件來提取文本
TextAbsorber textAbsorber = new TextAbsorber();
//接受所有頁面的吸收器
pdfDocument.Pages.Accept(textAbsorber);
//獲取提取的文本
string extractedText = textAbsorber.Text;
//建立編寫器並開啟文件
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
//將一行文字寫入文件
tw.WriteLine(extractedText);
//關閉流
tw.Close();

結論

您已使用 Aspose.PDF for .NET 成功地從 PDF 文件中提取了所有文字。提取的文字已儲存到指定的輸出檔案中。

常見問題解答

Q：本教學的目的是什麼？

答：本教學作為指南，幫助您使用 Aspose.PDF for .NET 從 PDF 檔案中提取所有文字。隨附的 C# 原始程式碼提供了完成此任務的逐步說明。

Q：我應該導入哪些命名空間？

答：在要擷取文字的程式碼檔案中，在檔案開頭包含以下 using 指令：

using Aspose.Pdf;
using System.IO;

Q：如何指定文檔目錄？

答：找到該線string dataDir = "YOUR DOCUMENT DIRECTORY";在代碼中並替換"YOUR DOCUMENT DIRECTORY"與文檔目錄的實際路徑。

Q：如何開啟現有的 PDF 文件？

答：在步驟 4 中，您將使用以下命令開啟現有的 PDF 文件：Document建構函數並提供輸入 PDF 檔案的路徑。

Q：如何從文件中提取所有文字？

答：第 5 步涉及創建TextAbsorber物件從 PDF 文件中提取文字。然後，您將接受所有頁面的吸收器。

Q：如何存取提取的文字？

答：第 6 步將引導您訪問從TextAbsorber目的。

問：如何將提取的文字儲存到文件中？

答：在步驟 7 中，您將建立一個TextWriter，開啟要儲存擷取的文字的文件，將擷取的文字寫入該文件，然後關閉串流。

Q：本教程的主要內容是什麼？

答：透過學習本教學課程，您已經了解如何使用 Aspose.PDF for .NET 從 PDF 文件中提取所有文字。提取的文字已儲存到指定的輸出檔案中，使您能夠分析和操作文件的文字內容。

提取 PDF 檔案中的段落從 PDF 文件中的頁面區域提取文本