पीडीएफ फाइल में हाइलाइट किए गए टेक्स्ट को निकालें

पीडीएफ फ़ाइल में हाइलाइट किए गए टेक्स्ट को निकालने के लिए, आप .NET API के लिए Aspose.PDF का उपयोग कर सकते हैं। यह एपीआई किसी दस्तावेज़ में हाइलाइट किए गए सभी टेक्स्ट को पुनः प्राप्त करने का एक सरल तरीका प्रदान करता है।

चरण 1: पीडीएफ दस्तावेज़ लोड करें

पीडीएफ फाइल में हाइलाइट किए गए टेक्स्ट को निकालने में पहला कदम .NET एपीआई के लिए Aspose.PDF का उपयोग करके दस्तावेज़ को लोड करना है। आप इसका एक नया उदाहरण बनाकर ऐसा कर सकते हैंDocument क्लास और एक पैरामीटर के रूप में पीडीएफ दस्तावेज़ के लिए पथ पास करना।

// दस्तावेज़ निर्देशिका का पथ.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

चरण 2: सभी एनोटेशन के माध्यम से लूप करें

अगला कदम पीडीएफ दस्तावेज़ में सभी एनोटेशन को लूप करना है। आप इसका उपयोग करके ऐसा कर सकते हैंforeach लूप, इस प्रकार:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	// कोड यहाँ जाता है
}

चरण 3: टेक्स्ट मार्कअप एनोटेशन फ़िल्टर करें

के अंदरforeach लूप, आपको उन सभी एनोटेशन को फ़िल्टर करना होगा जो टेक्स्ट मार्कअप एनोटेशन नहीं हैं। आप यह जांच कर ऐसा कर सकते हैं कि क्या एनोटेशन इसका एक उदाहरण हैTextMarkupAnnotation कक्षा।

if (annotation is TextMarkupAnnotation)
{
	// कोड यहाँ जाता है
}

चरण 4: हाइलाइट किए गए पाठ अंशों को पुनः प्राप्त करें

एक बार जब आप सभी टेक्स्ट मार्कअप एनोटेशन को फ़िल्टर कर लेते हैं, तो आप प्रत्येक एनोटेशन के लिए हाइलाइट किए गए टेक्स्ट टुकड़े पुनः प्राप्त कर सकते हैं। आप कॉल करके ऐसा कर सकते हैंGetMarkedTextFragments() पर विधिTextMarkupAnnotation वस्तु।

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

चरण 5: हाइलाइट किया गया टेक्स्ट प्रदर्शित करें

अंत में, आप उपयोगकर्ता को हाइलाइट किया गया टेक्स्ट प्रदर्शित कर सकते हैं। आप प्रत्येक के माध्यम से लूपिंग करके ऐसा कर सकते हैंTextFragment में वस्तुTextFragmentCollection और कॉल कर रहा हूँText संपत्ति।

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

.NET के लिए Aspose.PDF का उपयोग करके हाइलाइट किए गए टेक्स्ट को निकालने के लिए उदाहरण स्रोत कोड

// दस्तावेज़ निर्देशिका का पथ.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

निष्कर्ष

इस ट्यूटोरियल में, हमने पता लगाया कि .NET के लिए Aspose.PDF का उपयोग करके पीडीएफ दस्तावेज़ से हाइलाइट किए गए टेक्स्ट को कैसे निकाला जाए। चरण-दर-चरण मार्गदर्शिका का पालन करके और दिए गए C# स्रोत कोड का उपयोग करके, डेवलपर्स अपने पीडीएफ दस्तावेज़ों में हाइलाइट किए गए टेक्स्ट को आसानी से निकाल और प्रबंधित कर सकते हैं।

पीडीएफ फ़ाइल में हाइलाइट किए गए टेक्स्ट को निकालने के लिए अक्सर पूछे जाने वाले प्रश्न

प्रश्न: पीडीएफ दस्तावेज़ में टेक्स्ट मार्कअप एनोटेशन क्या हैं?

उ: टेक्स्ट मार्कअप एनोटेशन वे एनोटेशन हैं जो पीडीएफ दस्तावेज़ में विशिष्ट टेक्स्ट को हाइलाइट या चिह्नित करते हैं। टेक्स्ट मार्कअप एनोटेशन के उदाहरणों में हाइलाइट्स, अंडरलाइन और स्ट्राइकथ्रू शामिल हैं।

प्रश्न: क्या मैं .NET के लिए Aspose.PDF का उपयोग करके अन्य प्रकार के एनोटेशन से टेक्स्ट निकाल सकता हूँ?

उत्तर: हां, .NET के लिए Aspose.PDF विभिन्न प्रकार के एनोटेशन से टेक्स्ट निकालने के लिए विभिन्न तरीके प्रदान करता है, जिसमें टेक्स्ट मार्कअप एनोटेशन, मुफ्त टेक्स्ट एनोटेशन और बहुत कुछ शामिल हैं।

प्रश्न: क्या .NET के लिए Aspose.PDF पासवर्ड से सुरक्षित पीडीएफ फाइलों से टेक्स्ट निकालने का समर्थन करता है?

उत्तर: हां, .NET के लिए Aspose.PDF पासवर्ड से सुरक्षित पीडीएफ फाइलों से टेक्स्ट निकालने का समर्थन करता है। का उपयोग करके पीडीएफ दस्तावेज़ लोड करते समय आपको सही पासवर्ड प्रदान करना होगाDocument कक्षा।

प्रश्न: क्या मैं हाइलाइट किए गए टेक्स्ट को रंग या लेखक जैसे अन्य मानदंडों के आधार पर फ़िल्टर कर सकता हूं?

उ: हां, आप हाइलाइट किए गए टेक्स्ट को अन्य मानदंडों, जैसे रंग, लेखक या निर्माण तिथि के आधार पर फ़िल्टर कर सकते हैं। .NET के लिए Aspose.PDF उनके गुणों के आधार पर एनोटेशन तक पहुंचने और फ़िल्टर करने के तरीके प्रदान करता है।

प्रश्न: क्या निकाले गए हाइलाइट किए गए टेक्स्ट को एक अलग फ़ाइल में सहेजना संभव है?

उत्तर: हां, आप निकाले गए हाइलाइट किए गए टेक्स्ट को एक अलग फ़ाइल में सहेज सकते हैं या आगे की प्रक्रिया या विश्लेषण के लिए डेटा संरचना में संग्रहीत कर सकते हैं।