पीडीएफ फाइल में सभी टेक्स्ट निकालें

यह ट्यूटोरियल आपको .NET के लिए Aspose.PDF का उपयोग करके पीडीएफ फ़ाइल में सभी टेक्स्ट निकालने की प्रक्रिया में मार्गदर्शन करेगा। प्रदान किया गया C# स्रोत कोड आवश्यक चरणों को दर्शाता है।

आवश्यकताएं

शुरू करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित हैं:

  • विजुअल स्टूडियो या आपकी मशीन पर कोई अन्य C# कंपाइलर स्थापित।
  • .NET लाइब्रेरी के लिए Aspose.PDF। आप इसे आधिकारिक Aspose वेबसाइट से डाउनलोड कर सकते हैं या इसे इंस्टॉल करने के लिए NuGet जैसे पैकेज मैनेजर का उपयोग कर सकते हैं।

चरण 1: प्रोजेक्ट सेट करें

  1. अपने पसंदीदा विकास परिवेश में एक नया C# प्रोजेक्ट बनाएं।
  2. .NET लाइब्रेरी के लिए Aspose.PDF का संदर्भ जोड़ें।

चरण 2: आवश्यक नामस्थान आयात करें

कोड फ़ाइल में जहां आप टेक्स्ट निकालना चाहते हैं, फ़ाइल के शीर्ष पर निर्देशों का उपयोग करके निम्नलिखित जोड़ें:

using Aspose.Pdf;
using System.IO;

चरण 3: दस्तावेज़ निर्देशिका सेट करें

कोड में, उस पंक्ति का पता लगाएं जो कहती हैstring dataDir = "YOUR DOCUMENT DIRECTORY"; और बदलें"YOUR DOCUMENT DIRECTORY" उस निर्देशिका के पथ के साथ जहां आपके दस्तावेज़ संग्रहीत हैं।

चरण 4: पीडीएफ दस्तावेज़ खोलें

का उपयोग करके मौजूदा पीडीएफ दस्तावेज़ खोलेंDocumentकंस्ट्रक्टर और इनपुट पीडीएफ फाइल के लिए पथ पास करना।

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

चरण 5: सभी पाठ निकालें

एक बनाने केTextAbsorberदस्तावेज़ से पाठ निकालने के लिए ऑब्जेक्ट। फिर, सभी पृष्ठों के लिए अवशोषक स्वीकार करें।

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);

चरण 6: निकाला गया टेक्स्ट प्राप्त करें

से निकाले गए टेक्स्ट तक पहुंचेंTextAbsorber वस्तु।

string extractedText = textAbsorber.Text;

चरण 7: निकाले गए टेक्स्ट को सहेजें

एक बनाने केTextWriter और वह फ़ाइल खोलें जहाँ आप निकाले गए टेक्स्ट को सहेजना चाहते हैं। निकाले गए टेक्स्ट को फ़ाइल में लिखें और स्ट्रीम बंद करें।

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

.NET के लिए Aspose.PDF का उपयोग करके सभी टेक्स्ट निकालने के लिए नमूना स्रोत कोड

// दस्तावेज़ निर्देशिका का पथ.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// दस्तावेज़ खोलें
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// टेक्स्ट निकालने के लिए टेक्स्टएब्जॉर्बर ऑब्जेक्ट बनाएं
TextAbsorber textAbsorber = new TextAbsorber();
// सभी पृष्ठों के लिए अवशोषक स्वीकार करें
pdfDocument.Pages.Accept(textAbsorber);
// निकाला गया पाठ प्राप्त करें
string extractedText = textAbsorber.Text;
// एक लेखक बनाएं और फ़ाइल खोलें
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// फ़ाइल में पाठ की एक पंक्ति लिखें
tw.WriteLine(extractedText);
// स्ट्रीम बंद करें
tw.Close();

निष्कर्ष

आपने .NET के लिए Aspose.PDF का उपयोग करके PDF दस्तावेज़ से सभी टेक्स्ट को सफलतापूर्वक निकाल लिया है। निकाले गए पाठ को निर्दिष्ट आउटपुट फ़ाइल में सहेजा गया है।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: इस ट्यूटोरियल का उद्देश्य क्या है?

उ: यह ट्यूटोरियल .NET के लिए Aspose.PDF का उपयोग करके एक पीडीएफ फ़ाइल से सभी टेक्स्ट निकालने में आपकी मदद करने के लिए एक गाइड के रूप में कार्य करता है। संलग्न C# स्रोत कोड इस कार्य को प्राप्त करने के लिए चरण-दर-चरण निर्देश प्रदान करता है।

प्रश्न: मुझे कौन से नामस्थान आयात करने चाहिए?

उ: कोड फ़ाइल में जहां आप टेक्स्ट निकालना चाहते हैं, फ़ाइल की शुरुआत में निर्देशों का उपयोग करते हुए निम्नलिखित शामिल करें:

using Aspose.Pdf;
using System.IO;

प्रश्न: मैं दस्तावेज़ निर्देशिका कैसे निर्दिष्ट करूं?

ए: लाइन का पता लगाएंstring dataDir = "YOUR DOCUMENT DIRECTORY"; कोड में और बदलें"YOUR DOCUMENT DIRECTORY" आपकी दस्तावेज़ निर्देशिका के वास्तविक पथ के साथ।

प्रश्न: मैं मौजूदा पीडीएफ दस्तावेज़ कैसे खोलूं?

उ: चरण 4 में, आप इसका उपयोग करके एक मौजूदा पीडीएफ दस्तावेज़ खोलेंगेDocument कंस्ट्रक्टर और इनपुट पीडीएफ फाइल के लिए पथ प्रदान करना।

प्रश्न: मैं दस्तावेज़ से सारा पाठ कैसे निकालूं?

ए: चरण 5 में ए बनाना शामिल हैTextAbsorber पीडीएफ दस्तावेज़ से पाठ निकालने के लिए ऑब्जेक्ट। फिर, आप सभी पृष्ठों के लिए अवशोषक स्वीकार करेंगे।

प्रश्न: मैं निकाले गए पाठ तक कैसे पहुँच सकता हूँ?

उ: चरण 6 आपको निकाले गए पाठ तक पहुँचने में मार्गदर्शन करता हैTextAbsorber वस्तु।

प्रश्न: मैं निकाले गए टेक्स्ट को फ़ाइल में कैसे सहेजूँ?

उ: चरण 7 में, आप एक बनाएंगेTextWriter, वह फ़ाइल खोलें जहाँ आप निकाले गए टेक्स्ट को सहेजना चाहते हैं, निकाले गए टेक्स्ट को फ़ाइल में लिखें, और फिर स्ट्रीम को बंद करें।

प्रश्न: इस ट्यूटोरियल से मुख्य निष्कर्ष क्या है?

उ: इस ट्यूटोरियल का अनुसरण करके, आपने सीखा है कि .NET के लिए Aspose.PDF का उपयोग करके एक पीडीएफ दस्तावेज़ से सभी टेक्स्ट को कैसे निकाला जाए। निकाले गए पाठ को एक निर्दिष्ट आउटपुट फ़ाइल में सहेजा गया है, जो आपको दस्तावेज़ की पाठ्य सामग्री का विश्लेषण और हेरफेर करने में सक्षम बनाता है।