ค้นหาข้อความด้วย Dot Net Regex
บทช่วยสอนนี้จะอธิบายวิธีใช้ Aspose.PDF สำหรับ .NET เพื่อค้นหาข้อความโดยใช้นิพจน์ทั่วไปของ .NET ในเอกสาร PDF ซอร์สโค้ด C# ที่ให้มาสาธิตกระบวนการทีละขั้นตอน
ข้อกำหนดเบื้องต้น
ก่อนที่จะดำเนินการบทแนะนำต่อ โปรดแน่ใจว่าคุณมีสิ่งต่อไปนี้:
- ความรู้พื้นฐานเกี่ยวกับภาษาการเขียนโปรแกรม C#
- ติดตั้ง Aspose.PDF สำหรับไลบรารี .NET แล้ว คุณสามารถรับได้จากเว็บไซต์ Aspose หรือใช้ NuGet เพื่อติดตั้งในโครงการของคุณ
ขั้นตอนที่ 1: ตั้งค่าโครงการ
เริ่มต้นด้วยการสร้างโปรเจ็กต์ C# ใหม่ในสภาพแวดล้อมการพัฒนาแบบรวม (IDE) ที่คุณต้องการ และเพิ่มการอ้างอิงไปยังไลบรารี Aspose.PDF สำหรับ .NET
ขั้นตอนที่ 2: นำเข้าเนมสเปซที่จำเป็น
เพิ่มคำสั่งต่อไปนี้ที่จุดเริ่มต้นของไฟล์ C# ของคุณเพื่อนำเข้าเนมสเปซที่จำเป็น:
using Aspose.Pdf;
using Aspose.Pdf.Text;
ขั้นตอนที่ 3: กำหนดเส้นทางไปยังไดเร็กทอรีเอกสาร
กำหนดเส้นทางไปยังไดเร็กทอรีเอกสารของคุณโดยใช้ไฟล์dataDir
ตัวแปร:
string dataDir = "YOUR DOCUMENT DIRECTORY";
แทนที่"YOUR DOCUMENT DIRECTORY"
ด้วยเส้นทางจริงไปยังไดเร็กทอรีเอกสารของคุณ
ขั้นตอนที่ 4: สร้างวัตถุ .NET Regex
สร้างก.NET Regex
วัตถุเพื่อกำหนดรูปแบบการค้นหา:
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");
แทนที่@"[\S]+"
ด้วยรูปแบบนิพจน์ทั่วไปที่คุณต้องการ
ขั้นตอนที่ 5: โหลดเอกสาร PDF
โหลดเอกสาร PDF โดยใช้ไฟล์Document
ระดับ:
Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");
แทนที่"SearchTextRegex.pdf"
ด้วยชื่อจริงของไฟล์ PDF ของคุณ
ขั้นตอนที่ 6: รับหน้าเฉพาะ
รับหน้าเอกสารที่ต้องการ:
Page page = document.Pages[1];
แทนที่1
ด้วยหมายเลขหน้าที่ต้องการ (ดัชนีฐาน 1)
ขั้นตอนที่ 7: สร้าง TextFragmentAbsorber
สร้างกTextFragmentAbsorber
วัตถุเพื่อค้นหาอินสแตนซ์ทั้งหมดของนิพจน์ทั่วไปอินพุต:
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;
ขั้นตอนที่ 8: ยอมรับตัวดูดซับสำหรับเพจ
ยอมรับตัวดูดซับสำหรับหน้า:
page.Accept(textFragmentAbsorber);
ขั้นตอนที่ 9: ดึงส่วนของข้อความที่แยกออกมา
รับส่วนของข้อความที่แยกออกมาโดยใช้TextFragments
ทรัพย์สินของTextFragmentAbsorber
วัตถุ:
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
ขั้นตอนที่ 10: วนซ้ำส่วนข้อความ
วนซ้ำส่วนข้อความที่ดึงมาและดำเนินการตามที่ต้องการ:
foreach (TextFragment textFragment in textFragmentCollection)
{
Console.WriteLine(textFragment.Text);
}
แก้ไขโค้ดภายในลูปเพื่อดำเนินการเพิ่มเติมกับแต่ละส่วนของข้อความ หากจำเป็น
ตัวอย่างซอร์สโค้ดสำหรับข้อความค้นหาด้วย Dot Net Regex โดยใช้ Aspose.PDF สำหรับ .NET
string dataDir = "YOUR DOCUMENT DIRECTORY";
// สร้างวัตถุ Regex เพื่อค้นหาคำทั้งหมด
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");
// เปิดเอกสาร
Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");
// รับหน้าเฉพาะ
Page page = document.Pages[1];
// สร้างวัตถุ TextAbsorber เพื่อค้นหาอินสแตนซ์ทั้งหมดของอินพุต regex
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;
// ยอมรับโช้คหน้า
page.Accept(textFragmentAbsorber);
// รับส่วนของข้อความที่แยกออกมา
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// วนผ่านชิ้นส่วน
foreach (TextFragment textFragment in textFragmentCollection)
{
Console.WriteLine(textFragment.Text);
}
บทสรุป
ยินดีด้วย! คุณได้เรียนรู้วิธีการค้นหาข้อความโดยใช้นิพจน์ทั่วไป .NET ในเอกสาร PDF โดยใช้ Aspose.PDF สำหรับ .NET เรียบร้อยแล้ว บทช่วยสอนนี้ให้คำแนะนำทีละขั้นตอน ตั้งแต่การตั้งค่าโปรเจ็กต์ไปจนถึงการเข้าถึงส่วนย่อยของข้อความที่แยกออกมา ตอนนี้คุณสามารถรวมโค้ดนี้เข้ากับโปรเจ็กต์ C# ของคุณเองเพื่อทำการค้นหาข้อความขั้นสูงในไฟล์ PDF
คำถามที่พบบ่อย
ถาม: จุดประสงค์ของบทช่วยสอน “ค้นหาข้อความด้วย Dot Net Regex” คืออะไร
ตอบ: บทช่วยสอน “ค้นหาข้อความด้วย Dot Net Regex” มีวัตถุประสงค์เพื่อแนะนำผู้ใช้เกี่ยวกับการใช้ไลบรารี Aspose.PDF สำหรับ .NET เพื่อค้นหาข้อความภายในเอกสาร PDF โดยใช้นิพจน์ทั่วไปของ .NET บทช่วยสอนให้คำแนะนำทีละขั้นตอนและตัวอย่างโค้ด C# เพื่อสาธิตกระบวนการ
ถาม: บทช่วยสอนนี้ช่วยในการค้นหาข้อความโดยใช้นิพจน์ทั่วไป .NET ในรูปแบบ PDF อย่างไร
ตอบ: บทช่วยสอนนี้ช่วยให้ผู้ใช้เข้าใจวิธีใช้ประโยชน์จากความสามารถของ Aspose.PDF สำหรับ .NET เพื่อค้นหาข้อความโดยใช้นิพจน์ทั่วไปของ .NET ภายในเอกสาร PDF ด้วยการทำตามขั้นตอนและตัวอย่างโค้ดที่ให้มา ผู้ใช้สามารถค้นหารูปแบบข้อความที่ตรงกับนิพจน์ทั่วไปที่ระบุได้อย่างมีประสิทธิภาพ
ถาม: ข้อกำหนดเบื้องต้นใดบ้างที่จำเป็นในการปฏิบัติตามบทช่วยสอนนี้
ตอบ: ก่อนที่จะเริ่มบทช่วยสอน คุณควรมีความเข้าใจพื้นฐานเกี่ยวกับภาษาการเขียนโปรแกรม C# นอกจากนี้ คุณต้องติดตั้งไลบรารี Aspose.PDF สำหรับ .NET ด้วย คุณสามารถรับได้จากเว็บไซต์ Aspose หรือติดตั้งในโครงการของคุณโดยใช้ NuGet
ถาม: ฉันจะตั้งค่าโปรเจ็กต์ให้ปฏิบัติตามบทช่วยสอนนี้ได้อย่างไร
ตอบ: ในการเริ่มต้น ให้สร้างโปรเจ็กต์ C# ใหม่ในสภาพแวดล้อมการพัฒนาแบบรวม (IDE) ที่คุณต้องการ และเพิ่มการอ้างอิงไปยังไลบรารี Aspose.PDF สำหรับ .NET ซึ่งจะทำให้คุณสามารถใช้คุณลักษณะของห้องสมุดในการค้นหาและทำงานกับเอกสาร PDF ได้
ถาม: ฉันสามารถใช้บทช่วยสอนนี้เพื่อค้นหาข้อความประเภทใดประเภทหนึ่งโดยเฉพาะโดยใช้นิพจน์ทั่วไปของ .NET ได้หรือไม่
ตอบ: ใช่ บทช่วยสอนนี้ให้คำแนะนำเกี่ยวกับวิธีการค้นหาข้อความโดยใช้นิพจน์ทั่วไป .NET ภายในเอกสาร PDF คุณสามารถปรับแต่ง.NET Regex
วัตถุเพื่อกำหนดรูปแบบการค้นหาเฉพาะที่คุณต้องการใช้
ถาม: ฉันจะระบุรูปแบบนิพจน์ทั่วไปของ .NET เพื่อค้นหาในบทช่วยสอนนี้ได้อย่างไร
ตอบ: หากต้องการระบุรูปแบบนิพจน์ทั่วไป .NET ที่คุณต้องการค้นหา ให้สร้าง a.NET Regex
object และกำหนดรูปแบบโดยใช้ไวยากรณ์นิพจน์ทั่วไปที่เหมาะสม แทนที่ค่าเริ่มต้น@"[\S]+"
ในโค้ดของบทช่วยสอนด้วยนิพจน์ทั่วไปที่คุณต้องการ
ถาม: ฉันจะดึงคุณสมบัติของส่วนข้อความที่แยกออกมาได้อย่างไร
ตอบ: หลังจากยอมรับแล้วTextFragmentAbsorber
สำหรับหน้าเฉพาะของ PDF คุณสามารถดึงส่วนข้อความที่แยกออกมาได้โดยใช้TextFragments
คุณสมบัติของวัตถุดูดซับ ซึ่งให้การเข้าถึงคอลเลกชันของส่วนของข้อความที่ตรงกับนิพจน์ทั่วไปของ .NET ที่ระบุ
ถาม: ฉันสามารถปรับแต่งโค้ดเพื่อดำเนินการเพิ่มเติมกับแต่ละส่วนของข้อความที่แยกออกมาได้หรือไม่
ตอบ: แน่นอน โค้ดตัวอย่างของบทช่วยสอนมีการวนซ้ำเพื่อวนซ้ำส่วนข้อความที่ดึงมา คุณสามารถปรับแต่งโค้ดภายในลูปนี้เพื่อดำเนินการเพิ่มเติมกับแต่ละส่วนของข้อความที่แยกออกมาตามความต้องการของโปรเจ็กต์ของคุณ
ถาม: ฉันจะบันทึกเอกสาร PDF ที่แก้ไขแล้วได้อย่างไรหลังจากแยกส่วนข้อความแล้ว
ตอบ: บทช่วยสอนนี้เน้นที่การค้นหาข้อความโดยใช้นิพจน์ทั่วไปของ .NET และการดึงข้อมูลส่วนของข้อความเป็นหลัก หากคุณต้องการแก้ไข PDF คุณสามารถดูเอกสารประกอบ Aspose.PDF อื่นๆ เพื่อเรียนรู้วิธีจัดการและบันทึกเอกสารตามความต้องการเฉพาะของคุณ