استخراج النص الكل في ملف PDF

سيرشدك هذا البرنامج التعليمي خلال عملية استخراج كل النص في ملف PDF باستخدام Aspose.PDF لـ .NET. يوضح كود مصدر C# المقدم الخطوات اللازمة.

متطلبات

قبل أن تبدأ، تأكد من أن لديك ما يلي:

Visual Studio أو أي مترجم C# آخر مثبت على جهازك.
Aspose.PDF لمكتبة .NET. يمكنك تنزيله من موقع Aspose الرسمي أو استخدام مدير الحزم مثل NuGet لتثبيته.

الخطوة 1: إعداد المشروع

قم بإنشاء مشروع C# جديد في بيئة التطوير المفضلة لديك.
قم بإضافة مرجع إلى Aspose.PDF لمكتبة .NET.

الخطوة 2: استيراد مساحات الأسماء المطلوبة

في ملف التعليمات البرمجية الذي تريد استخراج النص منه، أضف ما يلي باستخدام التوجيهات الموجودة في الجزء العلوي من الملف:

using Aspose.Pdf;
using System.IO;

الخطوة 3: قم بتعيين دليل المستند

في الكود، حدد السطر الذي يقولstring dataDir = "YOUR DOCUMENT DIRECTORY"; واستبدال"YOUR DOCUMENT DIRECTORY" مع المسار إلى الدليل حيث يتم تخزين المستندات الخاصة بك.

الخطوة 4: افتح مستند PDF

افتح مستند PDF موجود باستخدام الملفDocumentمنشئ وتمرير المسار إلى ملف PDF الإدخال.

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

الخطوة 5: استخراج كل النص

إنشاءTextAbsorberكائن لاستخراج النص من المستند. ثم قم بقبول المستوعب لجميع الصفحات.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);

الخطوة 6: الحصول على النص المستخرج

الوصول إلى النص المستخرج منTextAbsorber هدف.

string extractedText = textAbsorber.Text;

الخطوة 7: احفظ النص المستخرج

إنشاءTextWriter وافتح الملف الذي تريد حفظ النص المستخرج فيه. اكتب النص المستخرج إلى الملف وأغلق الدفق.

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

نموذج التعليمات البرمجية المصدر لاستخراج النص الكل باستخدام Aspose.PDF لـ .NET

// المسار إلى دليل المستندات.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// افتح المستند
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// قم بإنشاء كائن TextAbsorter لاستخراج النص
TextAbsorber textAbsorber = new TextAbsorber();
// قبول الممتص لجميع الصفحات
pdfDocument.Pages.Accept(textAbsorber);
// الحصول على النص المستخرج
string extractedText = textAbsorber.Text;
// إنشاء كاتب وفتح الملف
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// اكتب سطرًا من النص إلى الملف
tw.WriteLine(extractedText);
// أغلق الدفق
tw.Close();

خاتمة

لقد نجحت في استخراج كل النص من مستند PDF باستخدام Aspose.PDF لـ .NET. تم حفظ النص المستخرج في ملف الإخراج المحدد.

الأسئلة الشائعة

س: ما هو الغرض من هذا البرنامج التعليمي؟

ج: يعد هذا البرنامج التعليمي بمثابة دليل لمساعدتك في استخراج كل النص من ملف PDF باستخدام Aspose.PDF لـ .NET. يوفر كود مصدر C# المصاحب إرشادات خطوة بخطوة لتحقيق هذه المهمة.

س: ما هي مساحات الأسماء التي يجب علي استيرادها؟

ج: في ملف التعليمات البرمجية الذي تنوي استخراج النص منه، قم بتضمين ما يلي باستخدام التوجيهات في بداية الملف:

using Aspose.Pdf;
using System.IO;

س: كيف أحدد دليل المستندات؟

ج: تحديد موقع الخطstring dataDir = "YOUR DOCUMENT DIRECTORY"; في التعليمات البرمجية واستبدال"YOUR DOCUMENT DIRECTORY" بالمسار الفعلي إلى دليل المستندات الخاص بك.

س: كيف يمكنني فتح مستند PDF موجود؟

ج: في الخطوة 4، ستفتح مستند PDF موجودًا باستخدام الملفDocument منشئ وتوفير المسار إلى ملف PDF الإدخال.

س: كيف يمكنني استخراج النص بالكامل من المستند؟

ج: تتضمن الخطوة 5 إنشاء ملفTextAbsorber كائن لاستخراج النص من وثيقة PDF. وبعد ذلك، ستقبل الملخص لجميع الصفحات.

س: كيف يمكنني الوصول إلى النص المستخرج؟

ج: ترشدك الخطوة 6 إلى كيفية الوصول إلى النص المستخرج من ملفTextAbsorber هدف.

س: كيف يمكنني حفظ النص المستخرج في ملف؟

ج: في الخطوة 7، ستقوم بإنشاء ملفTextWriter، وافتح الملف الذي تريد حفظ النص المستخرج فيه، واكتب النص المستخرج في الملف، ثم أغلق الدفق.

س: ما هي الوجبات الرئيسية من هذا البرنامج التعليمي؟

ج: باتباع هذا البرنامج التعليمي، تعلمت كيفية استخراج كل النص من مستند PDF باستخدام Aspose.PDF لـ .NET. تم حفظ النص المستخرج في ملف إخراج محدد، مما يتيح لك تحليل المحتوى النصي للمستند ومعالجته.

استخراج الفقرات في ملف PDF استخراج النص من منطقة الصفحة في ملف PDF