แยกหน้าข้อความเป็นไฟล์ PDF
บทช่วยสอนนี้จะแนะนำคุณตลอดกระบวนการแยกข้อความจากหน้าเฉพาะในไฟล์ PDF โดยใช้ Aspose.PDF สำหรับ .NET ซอร์สโค้ด C# ที่ให้มาสาธิตขั้นตอนที่จำเป็น
ความต้องการ
ก่อนที่คุณจะเริ่มต้น ตรวจสอบให้แน่ใจว่าคุณมีสิ่งต่อไปนี้:
- Visual Studio หรือคอมไพเลอร์ C# อื่น ๆ ที่ติดตั้งบนเครื่องของคุณ
- Aspose.PDF สำหรับไลบรารี .NET คุณสามารถดาวน์โหลดได้จากเว็บไซต์อย่างเป็นทางการของ Aspose หรือใช้ตัวจัดการแพ็คเกจเช่น NuGet เพื่อติดตั้ง
ขั้นตอนที่ 1: ตั้งค่าโครงการ
- สร้างโปรเจ็กต์ C# ใหม่ในสภาพแวดล้อมการพัฒนาที่คุณต้องการ
- เพิ่มการอ้างอิงถึงไลบรารี Aspose.PDF สำหรับ .NET
ขั้นตอนที่ 2: นำเข้าเนมสเปซที่จำเป็น
ในไฟล์โค้ดที่คุณต้องการแยกข้อความ ให้เพิ่มคำสั่งต่อไปนี้ที่ด้านบนของไฟล์:
using Aspose.Pdf;
using System.IO;
ขั้นตอนที่ 3: ตั้งค่าไดเร็กทอรีเอกสาร
ในโค้ด ให้ค้นหาบรรทัดที่ระบุว่าstring dataDir = "YOUR DOCUMENT DIRECTORY";
และแทนที่"YOUR DOCUMENT DIRECTORY"
พร้อมเส้นทางไปยังไดเร็กทอรีที่เก็บเอกสารของคุณ
ขั้นตอนที่ 4: เปิดเอกสาร PDF
เปิดเอกสาร PDF ที่มีอยู่โดยใช้ไฟล์Document
Constructor และส่งเส้นทางไปยังไฟล์ PDF อินพุต
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
ขั้นตอนที่ 5: แยกข้อความจากหน้าใดหน้าหนึ่ง
สร้างกTextAbsorber
วัตถุเพื่อแยกข้อความจากเอกสาร ยอมรับตัวดูดซับสำหรับหน้าที่ต้องการโดยการเข้าถึงผ่านทางPages
คอลเลกชันของpdfDocument
.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);
ขั้นตอนที่ 6: รับข้อความที่แยกออกมา
เข้าถึงข้อความที่แยกมาจากTextAbsorber
วัตถุ.
string extractedText = textAbsorber.Text;
ขั้นตอนที่ 7: บันทึกข้อความที่แยกออกมา
สร้างกTextWriter
และเปิดไฟล์ที่คุณต้องการบันทึกข้อความที่แยกออกมา เขียนข้อความที่แยกออกมาลงในไฟล์และปิดสตรีม
dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();
ตัวอย่างซอร์สโค้ดสำหรับแยกหน้าข้อความโดยใช้ Aspose.PDF สำหรับ .NET
// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir = "YOUR DOCUMENT DIRECTORY";
// เปิดเอกสาร
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ
TextAbsorber textAbsorber = new TextAbsorber();
//ยอมรับตัวดูดซับสำหรับหน้าใดหน้าหนึ่งโดยเฉพาะ
pdfDocument.Pages[1].Accept(textAbsorber);
// รับข้อความที่แยกออกมา
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// สร้างนักเขียนและเปิดไฟล์
TextWriter tw = new StreamWriter(dataDir);
// เขียนบรรทัดข้อความลงในไฟล์
tw.WriteLine(extractedText);
// ปิดสตรีม
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);
บทสรุป
คุณได้แยกข้อความจากหน้าเฉพาะของเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET สำเร็จแล้ว ข้อความที่แยกออกมาได้รับการบันทึกลงในไฟล์เอาท์พุตที่ระบุ
คำถามที่พบบ่อย
ถาม: จุดประสงค์ของบทช่วยสอนนี้คืออะไร?
ตอบ: บทช่วยสอนนี้จะแนะนำคุณตลอดกระบวนการแยกข้อความจากหน้าใดหน้าหนึ่งในไฟล์ PDF โดยใช้ Aspose.PDF สำหรับ .NET ซอร์สโค้ด C# ที่แนบมานี้สาธิตขั้นตอนที่จำเป็นเพื่อให้บรรลุงานนี้
ถาม: ฉันควรนำเข้าเนมสเปซใด
ตอบ: ในไฟล์โค้ดที่คุณวางแผนจะแยกข้อความ ให้รวมคำสั่งต่อไปนี้ไว้ที่ตอนต้นของไฟล์:
using Aspose.Pdf;
using System.IO;
ถาม: ฉันจะระบุไดเรกทอรีเอกสารได้อย่างไร
ตอบ: ในโค้ด ให้ค้นหาบรรทัดที่ระบุว่าstring dataDir = "YOUR DOCUMENT DIRECTORY";
และแทนที่"YOUR DOCUMENT DIRECTORY"
ด้วยเส้นทางจริงไปยังไดเร็กทอรีเอกสารของคุณ
ถาม: ฉันจะเปิดเอกสาร PDF ที่มีอยู่ได้อย่างไร
ตอบ: ในขั้นตอนที่ 4 คุณจะเปิดเอกสาร PDF ที่มีอยู่โดยใช้ไฟล์Document
ตัวสร้างและจัดเตรียมเส้นทางไปยังไฟล์ PDF อินพุต
ถาม: ฉันจะแยกข้อความจากหน้าใดหน้าหนึ่งได้อย่างไร
ตอบ: ขั้นตอนที่ 5 เกี่ยวข้องกับการสร้างTextAbsorber
วัตถุเพื่อแยกข้อความจากเอกสาร PDF จากนั้นคุณจะยอมรับตัวดูดซับสำหรับหน้าที่ต้องการโดยการเข้าถึงผ่านPages
คอลเลกชันของpdfDocument
.
ถาม: ฉันจะเข้าถึงข้อความที่แยกออกมาได้อย่างไร
ตอบ: ขั้นตอนที่ 6 จะแนะนำคุณตลอดการเข้าถึงข้อความที่แยกมาจากTextAbsorber
วัตถุ.
ถาม: ฉันจะบันทึกข้อความที่แยกออกมาเป็นไฟล์ได้อย่างไร
ตอบ: ในขั้นตอนที่ 7 คุณจะสร้างไฟล์TextWriter
ให้เปิดไฟล์ที่คุณต้องการบันทึกข้อความที่แยกออกมา เขียนข้อความที่แยกออกมาลงในไฟล์ จากนั้นปิดสตรีม
ถาม: สิ่งสำคัญที่ได้รับจากบทช่วยสอนนี้คืออะไร
ตอบ: เมื่อทำตามบทช่วยสอนนี้ คุณได้เรียนรู้วิธีแยกข้อความจากหน้าเฉพาะของเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET ข้อความที่แยกออกมาได้รับการบันทึกลงในไฟล์เอาท์พุตที่ระบุ ทำให้คุณสามารถกำหนดเป้าหมายและวิเคราะห์เนื้อหาข้อความจากหน้าใดหน้าหนึ่งได้