PDF 파일에서 강조 표시된 텍스트 추출

PDF 파일에서 강조 표시된 텍스트를 추출하려면 Aspose.PDF for .NET API를 사용할 수 있습니다. 이 API는 문서에서 강조 표시된 모든 텍스트를 검색하는 간단한 방법을 제공합니다.

1단계: PDF 문서 로드

PDF 파일에서 강조 표시된 텍스트를 추출하는 첫 번째 단계는 .NET API용 Aspose.PDF를 사용하여 문서를 로드하는 것입니다. 이 작업은 새 인스턴스를 생성하여 수행할 수 있습니다.Document 클래스를 선택하고 PDF 문서의 경로를 매개변수로 전달합니다.

// 문서 디렉터리의 경로입니다.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

2단계: 모든 주석을 반복합니다.

다음 단계는 PDF 문서의 모든 주석을 반복하는 것입니다. 다음을 사용하여 이 작업을 수행할 수 있습니다.foreach 루프는 다음과 같습니다:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	// 코드는 여기에 표시됩니다.
}

3단계: 텍스트 마크업 주석 필터링

내부foreach 루프를 실행하려면 텍스트 마크업 주석이 아닌 모든 주석을 필터링해야 합니다. 주석이 다음의 인스턴스인지 확인하면 됩니다.TextMarkupAnnotation 수업.

if (annotation is TextMarkupAnnotation)
{
	// 코드는 여기에 표시됩니다.
}

4단계: 강조 표시된 텍스트 조각 검색

모든 텍스트 마크업 주석을 필터링한 후에는 각 주석에 대해 강조 표시된 텍스트 조각을 검색할 수 있습니다. 이 작업은GetMarkedTextFragments() 에 대한 방법TextMarkupAnnotation 물체.

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

5단계: 강조 표시된 텍스트 표시

마지막으로 강조 표시된 텍스트를 사용자에게 표시할 수 있습니다. 각 항목을 반복하여 이 작업을 수행할 수 있습니다.TextFragment 의 개체TextFragmentCollection 그리고 전화를Text 재산.

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

.NET용 Aspose.PDF를 사용하여 강조 표시된 텍스트 추출에 대한 예제 소스 코드

// 문서 디렉터리의 경로입니다.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

결론

이 튜토리얼에서는 .NET용 Aspose.PDF를 사용하여 PDF 문서에서 강조 표시된 텍스트를 추출하는 방법을 살펴보았습니다. 단계별 가이드를 따르고 제공된 C# 소스 코드를 사용하여 개발자는 PDF 문서에서 강조 표시된 텍스트를 쉽게 추출하고 관리할 수 있습니다.

PDF 파일에서 강조 표시된 텍스트 추출에 대한 FAQ

Q: PDF 문서의 텍스트 마크업 주석이란 무엇입니까?

답변: 텍스트 마크업 주석은 PDF 문서의 특정 텍스트를 강조하거나 표시하는 주석입니다. 텍스트 마크업 주석의 예로는 강조 표시, 밑줄 및 취소선이 있습니다.

Q: .NET용 Aspose.PDF를 사용하여 다른 유형의 주석에서 텍스트를 추출할 수 있습니까?

A: 예, .NET용 Aspose.PDF는 텍스트 마크업 주석, 자유 텍스트 주석 등을 포함하여 다양한 유형의 주석에서 텍스트를 추출하는 다양한 방법을 제공합니다.

Q: .NET용 Aspose.PDF는 비밀번호로 보호된 PDF 파일에서 텍스트 추출을 지원합니까?

A: 예, .NET용 Aspose.PDF는 비밀번호로 보호된 PDF 파일에서 텍스트 추출을 지원합니다. PDF 문서를 로드할 때 올바른 비밀번호를 제공해야 합니다.Document 수업.

Q: 색상이나 작성자 등 다른 기준에 따라 강조 표시된 텍스트를 필터링할 수 있습니까?

A: 예, 색상, 작성자 또는 생성 날짜와 같은 다른 기준에 따라 강조 표시된 텍스트를 필터링할 수 있습니다. .NET용 Aspose.PDF는 해당 속성을 기반으로 주석에 액세스하고 필터링하는 방법을 제공합니다.

Q: 추출된 하이라이트 텍스트를 별도의 파일로 저장할 수 있나요?

A: 예, 추출된 강조 표시된 텍스트를 별도의 파일에 저장하거나 추가 처리 또는 분석을 위해 데이터 구조에 저장할 수 있습니다.