แยกข้อความทั้งหมดลงในไฟล์ PDF

การแนะนำ

ในยุคดิจิทัลนี้ การจัดการเอกสาร PDF กลายมาเป็นงานทั่วไป ไม่ว่าคุณจะเป็นนักพัฒนาที่ต้องการสร้างแอปพลิเคชันประมวลผลเอกสารหรือมืออาชีพทางธุรกิจที่ต้องการดึงข้อมูลสำคัญ การทราบวิธีการดึงข้อความจากไฟล์ PDF อย่างมีประสิทธิภาพจะช่วยประหยัดเวลาและพลังงานของคุณได้มาก ในบทความนี้ เราจะเจาะลึกการใช้ไลบรารี Aspose.PDF สำหรับ .NET ซึ่งเป็นเครื่องมืออันทรงพลังที่ช่วยให้คุณดึงข้อความจากไฟล์ PDF ได้อย่างรวดเร็วและง่ายดาย

ข้อกำหนดเบื้องต้น

ก่อนที่เราจะเจาะลึกรายละเอียดในการแยกข้อความจากไฟล์ PDF มีข้อกำหนดพื้นฐานบางประการที่คุณต้องมี:

  1. .NET Framework: ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง .NET Framework ไว้ในเครื่องพัฒนาของคุณแล้ว Aspose.PDF ทำงานร่วมกับ .NET ได้อย่างราบรื่น ดังนั้นการมีเวอร์ชันล่าสุดจึงถือเป็นข้อดี
  2. ไลบรารี Aspose.PDF: คุณจะต้องมีไลบรารี Aspose.PDF สำหรับ .NET เพื่อจัดการการจัดการ PDF คุณสามารถดาวน์โหลดได้ที่นี่.
  3. สภาพแวดล้อมการพัฒนา: ขอแนะนำ IDE เช่น Visual Studio เป็นอย่างยิ่ง IDE นี้มีอินเทอร์เฟซที่ใช้งานง่ายสำหรับการเขียน สร้าง และแก้ไขโค้ดของคุณ
  4. ความรู้พื้นฐานเกี่ยวกับ C#: ความคุ้นเคยกับภาษาการเขียนโปรแกรม C# จะช่วยให้คุณเข้าใจชิ้นส่วนโค้ดที่เรากำลังจะสำรวจได้ดีขึ้น

ตอนนี้เราได้จัดเตรียมข้อกำหนดเบื้องต้นเรียบร้อยแล้ว เรามานำเข้าแพ็คเกจที่จำเป็นกัน!

แพ็คเกจนำเข้า

หากต้องการเริ่มต้นกระบวนการแยกไฟล์ คุณต้องนำเข้าเนมสเปซที่จำเป็นในโปรเจ็กต์ C# ก่อน โดยทำได้ดังนี้:

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

เนมสเปซเหล่านี้จะให้การเข้าถึงคลาสและวิธีการที่จำเป็นสำหรับการดำเนินการ PDF

มาแบ่งกระบวนการแยกข้อความออกเป็นขั้นตอนที่ทำตามได้ง่าย ๆ กัน เมื่ออ่านคู่มือนี้จบ คุณจะสามารถแยกข้อความจากไฟล์ PDF ได้อย่างราบรื่น

ขั้นตอนที่ 1: ตั้งค่าไดเรกทอรีเอกสารของคุณ

สิ่งแรกที่คุณต้องทำคือระบุไดเรกทอรีที่ไฟล์ PDF ของคุณตั้งอยู่ ซึ่งเป็นสิ่งสำคัญในการค้นหาไฟล์ที่คุณต้องการใช้งาน

ตัวอย่างโค้ด:

// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir = "YOUR DOCUMENT DIRECTORY";

ในสคริปท์นี้ เพียงแค่แทนที่"YOUR DOCUMENT DIRECTORY" ด้วยเส้นทางจริงที่ไฟล์ PDF ของคุณอยู่ ตัวอย่างเช่น หากไฟล์ของคุณอยู่ในC:\Documents คุณจะตั้งค่าdataDir ไปสู่เส้นทางนั้น

ขั้นตอนที่ 2: เปิดเอกสาร PDF

เมื่อคุณตั้งค่าไดเร็กทอรีแล้ว คุณต้องเปิดเอกสาร PDF ที่คุณต้องการแยกข้อความออกมา ซึ่งทำได้โดยใช้Document คลาสจากเนมสเปซ Aspose.PDF

ตัวอย่างโค้ด:

// เปิดเอกสาร
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

ที่นี่ให้แน่ใจว่าชื่อไฟล์ExtractTextAll.pdf ถูกต้อง นี่คือไฟล์ที่คุณจะใช้ในการแยกข้อความ

ขั้นตอนที่ 3: สร้างวัตถุ Text Absorber

ขั้นตอนต่อไปคือการสร้างTextAbsorber วัตถุ นี่คือเครื่องมือวิเศษที่จะช่วยให้คุณดูดซับข้อความทั้งหมดที่มีอยู่ใน PDF

ตัวอย่างโค้ด:

// สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ
TextAbsorber textAbsorber = new TextAbsorber();

โดยการเริ่มต้นTextAbsorberคุณเตรียมที่จะแยกเนื้อหาข้อความทั้งหมดออกจากหน้า PDF

ขั้นตอนที่ 4: ยอมรับตัวดูดซับสำหรับทุกหน้า

ตอนนี้คุณได้เตรียมโปรแกรมดูดซับข้อความไว้แล้ว คุณต้องทำให้มันทำงานกับทุกหน้าของเอกสาร PDF วิธีนี้จะช่วยให้มั่นใจได้ว่าข้อความจากทุกหน้าจะถูกจับภาพ

ตัวอย่างโค้ด:

// รับตัวดูดซับสำหรับทุกหน้า
pdfDocument.Pages.Accept(textAbsorber);

ในขั้นตอนนี้ คุณกำลังพูดว่า “เฮ้ ตัวดูดซับข้อความ รวบรวมข้อความทั้งหมดจากทุกหน้าในเอกสารนี้ซะ!”

ขั้นตอนที่ 5: ดึงข้อความที่แยกออกมา

เมื่อทำการดูดซับข้อความแล้ว ก็ถึงเวลาที่จะดึงข้อความออกมา คุณสามารถเข้าถึงข้อความที่แยกออกมาได้โดยใช้คุณสมบัติง่ายๆ

ตัวอย่างโค้ด:

// รับข้อความที่แยกออกมา
string extractedText = textAbsorber.Text;

ตอนนี้ตัวแปรextractedText มีข้อความทั้งหมดที่รวบรวมมาจาก PDF ของคุณ เจ๋งไหมล่ะ?

ขั้นตอนที่ 6: เขียนข้อความที่แยกออกมาลงในไฟล์

สุดท้ายคุณอาจต้องการบันทึกข้อความที่แยกออกมาเป็นไฟล์ข้อความใหม่เพื่อให้เข้าถึงได้ง่ายในภายหลัง วิธีดำเนินการมีดังต่อไปนี้

ตัวอย่างโค้ด:

// สร้างโปรแกรมเขียนและเปิดไฟล์
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// เขียนบรรทัดข้อความลงในไฟล์
tw.WriteLine(extractedText);
// ปิดลำธาร
tw.Close();

โค้ดนี้จะเปิดไฟล์ใหม่ชื่อextracted-text.txtเขียนเนื้อหาที่แยกออกมาทั้งหมดลงในไฟล์นั้น จากนั้นจึงปิดไฟล์ ดังนั้น เมื่อใดก็ตามที่คุณต้องการดูข้อความที่แยกออกมา ให้ดูในไดเร็กทอรีเอกสารของคุณ!

บทสรุป

แค่นี้เอง! เพียงไม่กี่ขั้นตอนง่ายๆ คุณก็สามารถแยกข้อความจากไฟล์ PDF ใดๆ ก็ได้โดยใช้ Aspose.PDF สำหรับ .NET ไม่ว่าคุณจะกำลังสร้างแอปพลิเคชันเพื่อวิเคราะห์เอกสารหรือเพียงแค่ต้องการจดบันทึกสองสามรายการจาก PDF Aspose.PDF ก็มี API ที่แข็งแกร่งและใช้งานง่ายที่จะทำให้ชีวิตของคุณง่ายขึ้น อย่าลืมตรวจสอบเอกสารประกอบ สำหรับคุณสมบัติและความสามารถเพิ่มเติมที่ไลบรารีอันทรงพลังนี้นำเสนอ

คำถามที่พบบ่อย

ฉันสามารถใช้ Aspose.PDF สำหรับ .NET ได้ฟรีหรือไม่?

ใช่ Aspose เสนอให้ทดลองใช้งานฟรี คุณสามารถดาวน์โหลดได้ที่นี่.

จะเกิดอะไรขึ้นหาก PDF ของฉันมีรูปภาพและกราฟิก?

Aspose.PDF เน้นที่การแยกข้อความ หาก PDF ของคุณมีรูปภาพ คุณอาจต้องใช้วิธีการอื่นในการจัดการรูปภาพเหล่านั้น

มีใบอนุญาตชั่วคราวให้ใช้หรือไม่?

แน่นอนครับ! สามารถขอใบอนุญาตชั่วคราวได้ที่นี่.

ฉันจะได้รับการสนับสนุนสำหรับ Aspose.PDF ได้จากที่ไหน

คุณสามารถค้นหาการสนับสนุนและการสนทนาของชุมชนได้ที่ฟอรั่ม Aspose.

ฉันสามารถบันทึกข้อความที่แยกออกมาเป็นรูปแบบใดได้บ้าง

คุณสามารถบันทึกข้อความในรูปแบบต่างๆ เช่น.txt, .docxหรือแม้กระทั่งลงในฐานข้อมูลโดยตรง