हाइलाइट किए गए टेक्स्ट को PDF फ़ाइल में निकालें

परिचय

पीडीएफ फाइलों के साथ काम करते समय, हाइलाइट किए गए टेक्स्ट को निकालना एक महत्वपूर्ण कार्य हो सकता है, चाहे डेटा विश्लेषण, सामग्री समीक्षा, या बस अपने नोट्स को व्यवस्थित करने के लिए। यदि आप .NET के लिए Aspose.PDF का उपयोग कर रहे हैं, तो यह प्रक्रिया सीधी और कुशल है। इस ट्यूटोरियल में, हम आपको बताएंगे कि .NET के लिए Aspose.PDF का उपयोग करके PDF दस्तावेज़ से हाइलाइट किए गए टेक्स्ट को कैसे निकाला जाए। हम पूर्वापेक्षाओं से लेकर चरण-दर-चरण मार्गदर्शन तक सब कुछ कवर करेंगे, यह सुनिश्चित करते हुए कि आपको अंत तक एक व्यापक समझ हो।

आवश्यक शर्तें

कोड में आगे बढ़ने से पहले, कुछ चीजें हैं जिन्हें आपको ध्यान में रखना होगा:

.NET लाइब्रेरी के लिए Aspose.PDF: सुनिश्चित करें कि आपके पास Aspose.PDF लाइब्रेरी स्थापित है। यदि नहीं, तो आप इसे यहाँ से डाउनलोड कर सकते हैं।रिलीज़ पेज.
विकास परिवेश: आपके पास एक कार्यशील विकास परिवेश स्थापित होना चाहिए, जैसे कि विजुअल स्टूडियो।
C# का बुनियादी ज्ञान: C# प्रोग्रामिंग भाषा और ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग से परिचित होना आवश्यक है।
एक वैध Aspose लाइसेंस: जब आप एक नि: शुल्क परीक्षण के साथ शुरू कर सकते हैं, तो एक प्राप्त करने पर विचार करेंअस्थायी लाइसेंस या किसी से खरीद करयहाँ अप्रतिबंधित उपयोग के लिए.

पैकेज आयात करें

आरंभ करने के लिए, आपको अपने C# प्रोजेक्ट में आवश्यक नामस्थान आयात करने होंगे। यह .NET के लिए Aspose.PDF द्वारा प्रदान की गई कक्षाओं और विधियों तक पहुँचने के लिए महत्वपूर्ण है।

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

अब, आइए .NET के लिए Aspose.PDF का उपयोग करके PDF फ़ाइल से हाइलाइट किए गए टेक्स्ट को निकालने की प्रक्रिया को समझें। अंतर्निहित अवधारणाओं और कार्यान्वयन को समझने में आपकी सहायता करने के लिए प्रत्येक चरण को विस्तार से समझाया गया है।

चरण 1: अपनी प्रोजेक्ट निर्देशिका सेट करें

सबसे पहले, आपको अपनी प्रोजेक्ट डायरेक्टरी को सेट करना होगा जहाँ आपकी पीडीएफ फाइल स्थित है। यहीं पर जादू होता है।

// दस्तावेज़ निर्देशिका का पथ.
string dataDir = "YOUR DOCUMENT DIRECTORY";

प्रतिस्थापित करें"YOUR DOCUMENT DIRECTORY"आपकी निर्देशिका के वास्तविक पथ के साथ जहाँ PDF फ़ाइल स्थित है। यह निर्देशिका वह जगह है जहाँ एप्लिकेशन प्रोसेसिंग के लिए PDF को प्राप्त करेगा।

चरण 2: पीडीएफ दस्तावेज़ लोड करें

इसके बाद, आपको वह पीडीएफ दस्तावेज़ लोड करना होगा जिसमें से आप हाइलाइट किए गए टेक्स्ट को निकालना चाहते हैं। यह काम इस प्रकार किया जाता हैDocument Aspose.PDF द्वारा प्रदान की गई क्लास.

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Document क्लास को पीडीएफ फाइल के पथ के साथ इंस्टेंट किया जाता है। यहाँ,"ExtractHighlightedText.pdf" यह PDF फ़ाइल का नाम है जिसमें हाइलाइट किया गया टेक्स्ट है। सुनिश्चित करें कि यह फ़ाइल निर्दिष्ट निर्देशिका में मौजूद है।

चरण 3: एनोटेशन संग्रह तक पहुंचें

एक बार PDF दस्तावेज़ लोड हो जाने के बाद, अगला चरण दस्तावेज़ के पहले पृष्ठ पर एनोटेशन तक पहुँचना है। PDF में एनोटेशन का उपयोग हाइलाइट, टिप्पणियाँ और अन्य अतिरिक्त जानकारी जोड़ने के लिए किया जाता है।

foreach (Annotation annotation in doc.Pages[1].Annotations)
{

Annotations की संपत्तिPage ऑब्जेक्ट पीडीएफ के किसी खास पेज पर सभी एनोटेशन तक पहुंच प्रदान करता है। यहां, हम पहले पेज पर प्रत्येक एनोटेशन के माध्यम से लूपिंग कर रहे हैं।

चरण 4: हाइलाइट किए गए टेक्स्ट एनोटेशन के लिए फ़िल्टर करें

अब जब हमारे पास सभी एनोटेशन तक पहुँच है, तो हमें केवल हाइलाइट किए गए टेक्स्ट एनोटेशन को फ़िल्टर करना होगा। यह प्रत्येक एनोटेशन के प्रकार की जाँच करके प्राप्त किया जाता है।

if (annotation is TextMarkupAnnotation)
{
    TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

TextMarkupAnnotation क्लास का उपयोग हाइलाइट्स सहित टेक्स्ट मार्कअप एनोटेशन को दर्शाने के लिए किया जाता है।is कीवर्ड जाँचता है कि क्या एनोटेशन किस प्रकार का हैTextMarkupAnnotation , और यदि ऐसा है, तो यह एनोटेशन को कास्ट करता हैTextMarkupAnnotation.

चरण 5: हाइलाइट किए गए टेक्स्ट को निकालें

हाइलाइट किए गए एनोटेशन की पहचान हो जाने के बाद, अगला चरण हाइलाइट से संबद्ध टेक्स्ट को निकालना है।

TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
foreach (TextFragment tf in collection)
{
    Console.WriteLine(tf.Text);
}

GetMarkedTextFragments() विधि एक संग्रह लौटाती हैTextFragment ऑब्जेक्ट, जिनमें से प्रत्येक हाइलाइट किए गए टेक्स्ट के एक हिस्से का प्रतिनिधित्व करता है। हम इस संग्रह के माध्यम से लूप करते हैं और प्रत्येक टुकड़े के टेक्स्ट को कंसोल पर प्रिंट करते हैं।

निष्कर्ष

.NET के लिए Aspose.PDF का उपयोग करके PDF से हाइलाइट किए गए टेक्स्ट को निकालना एक शक्तिशाली सुविधा है जो आपके वर्कफ़्लो को सुव्यवस्थित कर सकती है, खासकर यदि आप बड़े दस्तावेज़ों से निपट रहे हैं। इस ट्यूटोरियल में बताए गए चरणों का पालन करके, आप आसानी से अपनी खुद की परियोजनाओं में इस कार्यक्षमता को लागू कर सकते हैं। चाहे आप अपने नोट्स को व्यवस्थित कर रहे हों, रिपोर्ट तैयार कर रहे हों, या डेटा विश्लेषण कर रहे हों, यह विधि हाइलाइट किए गए टेक्स्ट को निकालने और उपयोग करने के लिए एक सहज समाधान प्रदान करती है।

अक्सर पूछे जाने वाले प्रश्न

क्या मैं इस विधि का उपयोग करके अन्य प्रकार के एनोटेशन निकाल सकता हूँ?

हां, आप संशोधित करके अन्य प्रकार के एनोटेशन निकाल सकते हैंif विभिन्न एनोटेशन प्रकारों की जाँच करने की शर्त, जैसेTextAnnotation, StampAnnotation, वगैरह।

क्या पीडीएफ के सभी पृष्ठों से हाइलाइट किए गए पाठ को निकालना संभव है?

बिल्कुल! आप पीडीएफ दस्तावेज़ के प्रत्येक पृष्ठ पर लूप कर सकते हैं और प्रत्येक पृष्ठ से हाइलाइट किए गए पाठ को इकट्ठा करने के लिए समान निष्कर्षण तर्क लागू कर सकते हैं।

क्या मुझे .NET के लिए Aspose.PDF का उपयोग करने के लिए लाइसेंस की आवश्यकता है?

यद्यपि आप नि:शुल्क परीक्षण के साथ शुरुआत कर सकते हैं, लेकिन यह अनुशंसा की जाती है कि आप एक निःशुल्क परीक्षण प्राप्त करें।अस्थायी लाइसेंसया सभी सुविधाओं तक अप्रतिबंधित पहुंच के लिए पूर्ण लाइसेंस खरीदें।

क्या मैं निकाले गए पाठ को कंसोल पर प्रिंट करने के बजाय फ़ाइल में सहेज सकता हूँ?

हां, आप निकाले गए पाठ को टेक्स्ट फ़ाइल या किसी अन्य वांछित प्रारूप में सहेजने के लिए कोड को आसानी से संशोधित कर सकते हैं।

क्या Aspose.PDF .NET के अलावा अन्य प्लेटफॉर्म का समर्थन करता है?

हां, Aspose.PDF जावा और अन्य प्लेटफार्मों का भी समर्थन करता है, तथा विभिन्न वातावरणों में समान कार्यक्षमता प्रदान करता है।

पीडीएफ फाइल में विशेष एनोटेशन हटाएं पेज से सभी एनोटेशन प्राप्त करें