แยกข้อความที่เน้นสีในไฟล์ PDF

หากต้องการแยกข้อความที่ไฮไลต์เป็นไฟล์ PDF คุณสามารถใช้ Aspose.PDF สำหรับ .NET API API นี้มีวิธีง่ายๆ ในการดึงข้อความทั้งหมดที่ถูกไฮไลต์ในเอกสาร

ขั้นตอนที่ 1: โหลดเอกสาร PDF

ขั้นตอนแรกในการแยกข้อความที่ไฮไลต์ในไฟล์ PDF คือการโหลดเอกสารโดยใช้ Aspose.PDF สำหรับ .NET API คุณสามารถทำได้โดยสร้างอินสแตนซ์ใหม่ของDocument คลาสและส่งเส้นทางไปยังเอกสาร PDF เป็นพารามิเตอร์

// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

ขั้นตอนที่ 2: วนซ้ำคำอธิบายประกอบทั้งหมด

ขั้นตอนต่อไปคือการวนซ้ำคำอธิบายประกอบทั้งหมดในเอกสาร PDF คุณสามารถทำได้โดยใช้foreach วนซ้ำเช่นนั้น:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	// รหัสไปที่นี่
}

ขั้นตอนที่ 3: กรองคำอธิบายประกอบมาร์กอัปข้อความ

ข้างในforeach คุณจะต้องกรองคำอธิบายประกอบทั้งหมดที่ไม่ใช่คำอธิบายประกอบมาร์กอัปข้อความออก คุณสามารถทำได้โดยตรวจสอบว่าคำอธิบายประกอบเป็นตัวอย่างของหรือไม่TextMarkupAnnotation ระดับ.

if (annotation is TextMarkupAnnotation)
{
	// รหัสไปที่นี่
}

ขั้นตอนที่ 4: ดึงส่วนข้อความที่เน้นสี

เมื่อคุณกรองคำอธิบายประกอบมาร์กอัปข้อความทั้งหมดแล้ว คุณสามารถดึงส่วนข้อความที่ไฮไลต์สำหรับคำอธิบายประกอบแต่ละรายการได้ คุณสามารถทำได้โดยโทรไปที่GetMarkedTextFragments() วิธีการบนTextMarkupAnnotation วัตถุ.

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

ขั้นตอนที่ 5: แสดงข้อความที่ไฮไลต์

สุดท้าย คุณสามารถแสดงข้อความที่ไฮไลต์ให้ผู้ใช้เห็นได้ คุณสามารถทำได้โดยการวนซ้ำแต่ละอันTextFragment วัตถุในTextFragmentCollection และโทรไปที่Text คุณสมบัติ.

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

ตัวอย่างซอร์สโค้ดสำหรับแยกข้อความที่เน้นสีโดยใช้ Aspose.PDF สำหรับ .NET

// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

บทสรุป

ในบทช่วยสอนนี้ เราได้สำรวจวิธีแยกข้อความที่เน้นสีจากเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET ด้วยการทำตามคำแนะนำทีละขั้นตอนและใช้ซอร์สโค้ด C# ที่ให้มา นักพัฒนาจึงสามารถแยกและจัดการข้อความที่ไฮไลต์ในเอกสาร PDF ของตนได้อย่างง่ายดาย

คำถามที่พบบ่อยสำหรับการแยกข้อความที่เน้นสีเป็นไฟล์ PDF

ถาม: คำอธิบายประกอบมาร์กอัปข้อความในเอกสาร PDF คืออะไร

ตอบ: คำอธิบายประกอบมาร์กอัปข้อความคือคำอธิบายประกอบที่เน้นหรือทำเครื่องหมายข้อความเฉพาะในเอกสาร PDF ตัวอย่างของคำอธิบายประกอบมาร์กอัปข้อความ ได้แก่ ไฮไลต์ ขีดเส้นใต้ และขีดทับ

ถาม: ฉันสามารถแยกข้อความจากคำอธิบายประกอบประเภทอื่นโดยใช้ Aspose.PDF สำหรับ .NET ได้หรือไม่

ตอบ: ใช่ Aspose.PDF สำหรับ .NET มีวิธีต่างๆ มากมายในการแยกข้อความจากคำอธิบายประกอบประเภทต่างๆ รวมถึงคำอธิบายประกอบแบบมาร์กอัปข้อความ คำอธิบายประกอบข้อความอิสระ และอื่นๆ อีกมากมาย

ถาม: Aspose.PDF สำหรับ .NET รองรับการแยกข้อความจากไฟล์ PDF ที่มีการป้องกันด้วยรหัสผ่านหรือไม่

ตอบ: ใช่ Aspose.PDF สำหรับ .NET รองรับการแยกข้อความจากไฟล์ PDF ที่มีการป้องกันด้วยรหัสผ่าน คุณต้องระบุรหัสผ่านที่ถูกต้องเมื่อโหลดเอกสาร PDF โดยใช้Document ระดับ.

ถาม: ฉันสามารถกรองข้อความที่ไฮไลต์ตามเกณฑ์อื่นๆ เช่น สีหรือผู้เขียนได้หรือไม่

ตอบ: ได้ คุณสามารถกรองข้อความที่ไฮไลต์ตามเกณฑ์อื่นๆ ได้ เช่น สี ผู้เขียน หรือวันที่สร้าง Aspose.PDF สำหรับ .NET มีวิธีการเข้าถึงและกรองคำอธิบายประกอบตามคุณสมบัติ

ถาม: เป็นไปได้หรือไม่ที่จะบันทึกข้อความที่ไฮไลต์ที่แยกออกมาเป็นไฟล์อื่น

ตอบ: ได้ คุณสามารถบันทึกข้อความที่ไฮไลต์ที่แยกออกมาเป็นไฟล์แยกต่างหาก หรือจัดเก็บไว้ในโครงสร้างข้อมูลเพื่อการประมวลผลหรือการวิเคราะห์เพิ่มเติมได้