แยกข้อความจากขอบเขตของหน้าในไฟล์ PDF

บทช่วยสอนนี้จะแนะนำคุณตลอดกระบวนการแยกข้อความจากภูมิภาคเฉพาะบนหน้าในไฟล์ PDF โดยใช้ Aspose.PDF สำหรับ .NET ซอร์สโค้ด C# ที่ให้มาสาธิตขั้นตอนที่จำเป็น

ความต้องการ

ก่อนที่คุณจะเริ่มต้น ตรวจสอบให้แน่ใจว่าคุณมีสิ่งต่อไปนี้:

  • Visual Studio หรือคอมไพเลอร์ C# อื่น ๆ ที่ติดตั้งบนเครื่องของคุณ
  • Aspose.PDF สำหรับไลบรารี .NET คุณสามารถดาวน์โหลดได้จากเว็บไซต์อย่างเป็นทางการของ Aspose หรือใช้ตัวจัดการแพ็คเกจเช่น NuGet เพื่อติดตั้ง

ขั้นตอนที่ 1: ตั้งค่าโครงการ

  1. สร้างโปรเจ็กต์ C# ใหม่ในสภาพแวดล้อมการพัฒนาที่คุณต้องการ
  2. เพิ่มการอ้างอิงถึงไลบรารี Aspose.PDF สำหรับ .NET

ขั้นตอนที่ 2: นำเข้าเนมสเปซที่จำเป็น

ในไฟล์โค้ดที่คุณต้องการแยกข้อความ ให้เพิ่มคำสั่งต่อไปนี้ที่ด้านบนของไฟล์:

using Aspose.Pdf;
using System.IO;

ขั้นตอนที่ 3: ตั้งค่าไดเร็กทอรีเอกสาร

ในโค้ด ให้ค้นหาบรรทัดที่ระบุว่าstring dataDir = "YOUR DOCUMENT DIRECTORY"; และแทนที่"YOUR DOCUMENT DIRECTORY" พร้อมเส้นทางไปยังไดเร็กทอรีที่เก็บเอกสารของคุณ

ขั้นตอนที่ 4: เปิดเอกสาร PDF

เปิดเอกสาร PDF ที่มีอยู่โดยใช้ไฟล์DocumentConstructor และส่งเส้นทางไปยังไฟล์ PDF อินพุต

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

ขั้นตอนที่ 5: แยกข้อความออกจากขอบเขตของหน้า

สร้างกTextAbsorber วัตถุเพื่อแยกข้อความจากเอกสาร กำหนดค่าTextSearchOptions เพื่อจำกัดการค้นหาเฉพาะขอบเขตของหน้าที่กำหนดโดยสี่เหลี่ยมผืนผ้า

TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);

ขั้นตอนที่ 6: รับข้อความที่แยกออกมา

เข้าถึงข้อความที่แยกมาจากTextAbsorber วัตถุ.

string extractedText = absorb.Text;

ขั้นตอนที่ 7: บันทึกข้อความที่แยกออกมา

สร้างกTextWriter และเปิดไฟล์ที่คุณต้องการบันทึกข้อความที่แยกออกมา เขียนข้อความที่แยกออกมาลงในไฟล์และปิดสตรีม

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

ตัวอย่างซอร์สโค้ดสำหรับแยกข้อความจากขอบเขตเพจโดยใช้ Aspose.PDF สำหรับ .NET

// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir = "YOUR DOCUMENT DIRECTORY";
// เปิดเอกสาร
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// ยอมรับโช้คหน้าแรก
pdfDocument.Pages[1].Accept(absorber);
// รับข้อความที่แยกออกมา
string extractedText = absorber.Text;
// สร้างนักเขียนและเปิดไฟล์
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// เขียนบรรทัดข้อความลงในไฟล์
tw.WriteLine(extractedText);
// ปิดสตรีม
tw.Close();

บทสรุป

คุณได้แยกข้อความจากภูมิภาคเฉพาะบนหน้าเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET สำเร็จแล้ว ข้อความที่แยกออกมาได้รับการบันทึกลงในไฟล์เอาท์พุตที่ระบุ

คำถามที่พบบ่อย

ถาม: จุดประสงค์ของบทช่วยสอนนี้คืออะไร?

ตอบ: บทช่วยสอนนี้มีจุดมุ่งหมายเพื่อแนะนำคุณตลอดกระบวนการแยกข้อความจากภูมิภาคเฉพาะบนหน้าในไฟล์ PDF โดยใช้ Aspose.PDF สำหรับ .NET ซอร์สโค้ด C# ที่ให้มาจะให้คำแนะนำทีละขั้นตอนเพื่อให้งานนี้สำเร็จ

ถาม: ฉันควรนำเข้าเนมสเปซใด

ตอบ: ในไฟล์โค้ดที่คุณต้องการแยกข้อความ ให้รวมคำสั่งต่อไปนี้ไว้ที่ตอนต้นของไฟล์:

using Aspose.Pdf;
using System.IO;

ถาม: ฉันจะระบุไดเรกทอรีเอกสารได้อย่างไร

ตอบ: ค้นหาบรรทัดstring dataDir = "YOUR DOCUMENT DIRECTORY"; ในโค้ดและแทนที่"YOUR DOCUMENT DIRECTORY" ด้วยเส้นทางจริงไปยังไดเร็กทอรีเอกสารของคุณ

ถาม: ฉันจะเปิดเอกสาร PDF ที่มีอยู่ได้อย่างไร

ตอบ: ในขั้นตอนที่ 4 คุณจะเปิดเอกสาร PDF ที่มีอยู่โดยใช้ไฟล์Document ตัวสร้างและจัดเตรียมเส้นทางไปยังไฟล์ PDF อินพุต

ถาม: ฉันจะแยกข้อความจากขอบเขตของหน้าเฉพาะได้อย่างไร

ตอบ: ขั้นตอนที่ 5 เกี่ยวข้องกับการสร้างTextAbsorberวัตถุเพื่อแยกข้อความจากเอกสาร PDF จากนั้นคุณจะกำหนดค่าTextSearchOptions เพื่อกำหนดขอบเขตสี่เหลี่ยมเฉพาะบนเพจโดยใช้พิกัด

ถาม: ฉันจะเข้าถึงข้อความที่แยกออกมาได้อย่างไร

ตอบ: ขั้นตอนที่ 6 จะแนะนำคุณตลอดการเข้าถึงข้อความที่แยกมาจากTextAbsorber วัตถุ.

ถาม: ฉันจะบันทึกข้อความที่แยกออกมาเป็นไฟล์ได้อย่างไร

ตอบ: ในขั้นตอนที่ 7 คุณจะสร้างไฟล์TextWriterให้เปิดไฟล์ที่คุณต้องการบันทึกข้อความที่แยกออกมา เขียนข้อความที่แยกออกมาลงในไฟล์ จากนั้นปิดสตรีม

ถาม: สิ่งสำคัญที่ได้รับจากบทช่วยสอนนี้คืออะไร

ตอบ: เมื่อทำตามบทช่วยสอนนี้ คุณได้เรียนรู้วิธีแยกข้อความจากภูมิภาคเฉพาะบนหน้าของเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET ข้อความที่แยกออกมาได้รับการบันทึกลงในไฟล์เอาต์พุตที่ระบุ ช่วยให้คุณสามารถกำหนดเป้าหมายและวิเคราะห์เนื้อหาข้อความที่ต้องการได้อย่างแม่นยำ