PDF ファイル内の強調表示されたテキストを抽出する

PDF ファイル内の強調表示されたテキストを抽出するには、Aspose.PDF for .NET API を使用できます。この API は、ドキュメント内で強調表示されているすべてのテキストを取得する簡単な方法を提供します。

ステップ 1: PDF ドキュメントをロードする

PDF ファイル内の強調表示されたテキストを抽出する最初のステップは、Aspose.PDF for .NET API を使用してドキュメントをロードすることです。これを行うには、Documentクラスを作成し、PDF ドキュメントへのパスをパラメータとして渡します。

//ドキュメントディレクトリへのパス。
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

ステップ 2: すべての注釈をループする

次のステップでは、PDF ドキュメント内のすべての注釈をループします。これを行うには、foreach次のようにループします。

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	//ここにコードが入ります
}

ステップ 3: テキストマークアップの注釈をフィルタリングする

内部foreachループを実行するには、テキストマークアップ注釈ではないすべての注釈をフィルターで除外する必要があります。これを行うには、注釈がTextMarkupAnnotationクラス。

if (annotation is TextMarkupAnnotation)
{
	//ここにコードが入ります
}

ステップ 4: ハイライトされたテキストの断片を取得する

すべてのテキストマークアップ注釈をフィルターで除外すると、各注釈の強調表示されたテキストフラグメントを取得できます。これを行うには、GetMarkedTextFragments()のメソッドTextMarkupAnnotation物体。

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

ステップ 5: ハイライトされたテキストを表示する

最後に、強調表示されたテキストをユーザーに表示できます。それぞれをループすることでこれを行うことができますTextFragmentのオブジェクトTextFragmentCollectionそして、Text財産。

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

Aspose.PDF for .NET を使用して強調表示されたテキストを抽出するソースコードの例

//ドキュメントディレクトリへのパス。
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

結論

このチュートリアルでは、Aspose.PDF for .NET を使用して PDF ドキュメントから強調表示されたテキストを抽出する方法を検討しました。ステップバイステップのガイドに従い、提供されている C# ソースコードを使用することで、開発者は PDF ドキュメント内の強調表示されたテキストを簡単に抽出して管理できます。