PDF ファイルのページ領域からテキストを抽出

このチュートリアルでは、Aspose.PDF for .NET を使用して PDF ファイル内のページの特定の領域からテキストを抽出するプロセスについて説明します。提供されている C# ソース コードは、必要な手順を示しています。

要件

始める前に、以下のものがあることを確認してください。

  • マシンにインストールされている Visual Studio またはその他の C# コンパイラー。
  • .NET ライブラリ用の Aspose.PDF。 Aspose の公式 Web サイトからダウンロードするか、NuGet などのパッケージ マネージャーを使用してインストールできます。

ステップ 1: プロジェクトをセットアップする

  1. 好みの開発環境で新しい C# プロジェクトを作成します。
  2. Aspose.PDF for .NET ライブラリへの参照を追加します。

ステップ 2: 必要な名前空間をインポートする

テキストを抽出するコード ファイルで、ファイルの先頭に次の using ディレクティブを追加します。

using Aspose.Pdf;
using System.IO;

ステップ 3: ドキュメント ディレクトリを設定する

コード内で、次の行を見つけます。string dataDir = "YOUR DOCUMENT DIRECTORY";そして交換してください"YOUR DOCUMENT DIRECTORY"ドキュメントが保存されているディレクトリへのパスを置き換えます。

ステップ 4: PDF ドキュメントを開く

既存の PDF ドキュメントを開くには、Documentコンストラクターを呼び出して、入力 PDF ファイルへのパスを渡します。

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

ステップ 5: ページ領域からテキストを抽出する

を作成しますTextAbsorberオブジェクトを使用してドキュメントからテキストを抽出します。を設定します。TextSearchOptions四角形で定義された特定のページ領域に検索を制限します。

TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);

ステップ 6: 抽出されたテキストを取得する

から抽出されたテキストにアクセスします。TextAbsorber物体。

string extractedText = absorb.Text;

ステップ 7: 抽出したテキストを保存する

を作成しますTextWriter抽出したテキストを保存するファイルを開きます。抽出したテキストをファイルに書き込み、ストリームを閉じます。

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

Aspose.PDF for .NET を使用したページ領域からのテキストの抽出のサンプル ソース コード

//ドキュメントディレクトリへのパス。
string dataDir = "YOUR DOCUMENT DIRECTORY";
//開いた文書
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
//テキストを抽出する TextAbsorber オブジェクトを作成する
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
//最初のページの吸収体を受け入れる
pdfDocument.Pages[1].Accept(absorber);
//抽出されたテキストを取得する
string extractedText = absorber.Text;
//ライターを作成してファイルを開く
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
//ファイルにテキスト行を書き込みます
tw.WriteLine(extractedText);
//ストリームを閉じる
tw.Close();

結論

Aspose.PDF for .NET を使用して、PDF ドキュメントのページ上の特定の領域からテキストを抽出することに成功しました。抽出されたテキストは、指定された出力ファイルに保存されました。

よくある質問

Q: このチュートリアルの目的は何ですか?

A: このチュートリアルは、Aspose.PDF for .NET を使用して PDF ファイル内のページの特定の領域からテキストを抽出するプロセスをガイドすることを目的としています。付属の C# ソース コードには、このタスクを実行するための段階的な手順が記載されています。

Q: どの名前空間をインポートする必要がありますか?

A: テキストを抽出するコード ファイルでは、ファイルの先頭に次の using ディレクティブを含めます。

using Aspose.Pdf;
using System.IO;

Q: ドキュメント ディレクトリを指定するにはどうすればよいですか?

A: 行を見つけてくださいstring dataDir = "YOUR DOCUMENT DIRECTORY";コードに追加して置き換えます"YOUR DOCUMENT DIRECTORY"ドキュメントディレクトリへの実際のパスを置き換えます。

Q: 既存の PDF ドキュメントを開くにはどうすればよいですか?

A: ステップ 4 では、Documentコンストラクターを作成し、入力 PDF ファイルへのパスを提供します。

Q: 特定のページ領域からテキストを抽出するにはどうすればよいですか?

A: ステップ 5 では、TextAbsorberPDF ドキュメントからテキストを抽出するオブジェクト。次に、TextSearchOptions座標を使用してページ上の特定の長方形領域を定義します。

Q: 抽出したテキストにアクセスするにはどうすればよいですか?

A: ステップ 6 では、ファイルから抽出されたテキストにアクセスする手順を説明します。TextAbsorber物体。

Q: 抽出したテキストをファイルに保存するにはどうすればよいですか?

A: ステップ 7 では、TextWriter、抽出されたテキストを保存するファイルを開き、抽出されたテキストをファイルに書き込み、ストリームを閉じます。

Q: このチュートリアルの重要なポイントは何ですか?

A: このチュートリアルに従うことで、Aspose.PDF for .NET を使用して PDF ドキュメントのページ上の特定の領域からテキストを抽出する方法を学習しました。抽出されたテキストは指定された出力ファイルに保存されているため、目的のテキスト コンテンツを正確にターゲットにして分析することができます。