Εξαγωγή σελίδας κειμένου σε αρχείο PDF

Αυτό το σεμινάριο θα σας καθοδηγήσει στη διαδικασία εξαγωγής κειμένου από μια συγκεκριμένη σελίδα σε αρχείο PDF χρησιμοποιώντας το Aspose.PDF για .NET. Ο παρεχόμενος πηγαίος κώδικας C# δείχνει τα απαραίτητα βήματα.

Απαιτήσεις

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε τα ακόλουθα:

  • Visual Studio ή οποιοσδήποτε άλλος μεταγλωττιστής C# είναι εγκατεστημένος στον υπολογιστή σας.
  • Aspose.PDF για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετε από τον επίσημο ιστότοπο του Aspose ή να χρησιμοποιήσετε έναν διαχειριστή πακέτων όπως το NuGet για να το εγκαταστήσετε.

Βήμα 1: Ρύθμιση του έργου

  1. Δημιουργήστε ένα νέο έργο C# στο περιβάλλον ανάπτυξης που προτιμάτε.
  2. Προσθέστε μια αναφορά στη βιβλιοθήκη Aspose.PDF για .NET.

Βήμα 2: Εισαγάγετε τους απαιτούμενους χώρους ονομάτων

Στο αρχείο κώδικα όπου θέλετε να εξαγάγετε κείμενο, προσθέστε τα ακόλουθα χρησιμοποιώντας οδηγίες στο επάνω μέρος του αρχείου:

using Aspose.Pdf;
using System.IO;

Βήμα 3: Ορίστε τον κατάλογο εγγράφων

Στον κώδικα, εντοπίστε τη γραμμή που λέειstring dataDir = "YOUR DOCUMENT DIRECTORY"; και αντικαταστήστε"YOUR DOCUMENT DIRECTORY" με τη διαδρομή προς τον κατάλογο όπου είναι αποθηκευμένα τα έγγραφά σας.

Βήμα 4: Ανοίξτε το έγγραφο PDF

Ανοίξτε ένα υπάρχον έγγραφο PDF χρησιμοποιώντας τοDocumentκατασκευαστή και περνώντας τη διαδρομή προς το αρχείο εισόδου PDF.

Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");

Βήμα 5: Εξαγωγή κειμένου από μια συγκεκριμένη σελίδα

Δημιουργώ έναTextAbsorber αντικείμενο για εξαγωγή κειμένου από το έγγραφο. Αποδεχτείτε τον απορροφητήρα για την επιθυμητή σελίδα, προσεγγίζοντάς τον μέσω τουPages συλλογή τωνpdfDocument.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);

Βήμα 6: Λάβετε το εξαγόμενο κείμενο

Πρόσβαση στο εξαγόμενο κείμενο από τοTextAbsorber αντικείμενο.

string extractedText = textAbsorber.Text;

Βήμα 7: Αποθηκεύστε το εξαγόμενο κείμενο

Δημιουργώ έναTextWriter και ανοίξτε το αρχείο στο οποίο θέλετε να αποθηκεύσετε το εξαγόμενο κείμενο. Γράψτε το εξαγόμενο κείμενο στο αρχείο και κλείστε τη ροή.

dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();

Δείγμα πηγαίου κώδικα για εξαγωγή σελίδας κειμένου χρησιμοποιώντας Aspose.PDF για .NET

// Η διαδρομή προς τον κατάλογο εγγράφων.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Άνοιγμα εγγράφου
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Δημιουργήστε αντικείμενο TextAbsorber για εξαγωγή κειμένου
TextAbsorber textAbsorber = new TextAbsorber();
//Αποδεχτείτε τον απορροφητή για μια συγκεκριμένη σελίδα
pdfDocument.Pages[1].Accept(textAbsorber);
// Λάβετε το εξαγόμενο κείμενο
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Δημιουργήστε ένα πρόγραμμα εγγραφής και ανοίξτε το αρχείο
TextWriter tw = new StreamWriter(dataDir);
// Γράψτε μια γραμμή κειμένου στο αρχείο
tw.WriteLine(extractedText);
// Κλείστε τη ροή
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);

συμπέρασμα

Έχετε εξαγάγει με επιτυχία κείμενο από μια συγκεκριμένη σελίδα ενός εγγράφου PDF χρησιμοποιώντας το Aspose.PDF για .NET. Το εξαγόμενο κείμενο έχει αποθηκευτεί στο καθορισμένο αρχείο εξόδου.

Συχνές ερωτήσεις

Ε: Ποιος είναι ο σκοπός αυτού του σεμιναρίου;

Α: Αυτό το σεμινάριο σάς καθοδηγεί στη διαδικασία εξαγωγής κειμένου από μια συγκεκριμένη σελίδα σε ένα αρχείο PDF χρησιμοποιώντας το Aspose.PDF για .NET. Ο συνοδευτικός πηγαίος κώδικας C# δείχνει τα απαραίτητα βήματα για την επίτευξη αυτής της εργασίας.

Ε: Ποιους χώρους ονομάτων πρέπει να εισάγω;

Α: Στο αρχείο κώδικα όπου σκοπεύετε να εξαγάγετε κείμενο, συμπεριλάβετε τα ακόλουθα χρησιμοποιώντας οδηγίες στην αρχή του αρχείου:

using Aspose.Pdf;
using System.IO;

Ε: Πώς καθορίζω τον κατάλογο εγγράφων;

Α: Στον κώδικα, βρείτε τη γραμμή που λέειstring dataDir = "YOUR DOCUMENT DIRECTORY"; και αντικαταστήστε"YOUR DOCUMENT DIRECTORY" με την πραγματική διαδρομή προς τον κατάλογο εγγράφων σας.

Ε: Πώς μπορώ να ανοίξω ένα υπάρχον έγγραφο PDF;

Α: Στο Βήμα 4, θα ανοίξετε ένα υπάρχον έγγραφο PDF χρησιμοποιώντας τοDocument κατασκευαστή και παρέχοντας τη διαδρομή προς το αρχείο εισόδου PDF.

Ε: Πώς μπορώ να εξαγάγω κείμενο από μια συγκεκριμένη σελίδα;

Α: Το βήμα 5 περιλαμβάνει τη δημιουργία αTextAbsorber αντικείμενο για εξαγωγή κειμένου από το έγγραφο PDF. Στη συνέχεια, θα αποδεχτείτε τον απορροφητή για την επιθυμητή σελίδα, αποκτώντας πρόσβαση μέσω τουPages συλλογή τωνpdfDocument.

Ε: Πώς μπορώ να αποκτήσω πρόσβαση στο εξαγόμενο κείμενο;

Α: Το βήμα 6 σας καθοδηγεί στην πρόσβαση στο εξαγόμενο κείμενο από τοTextAbsorber αντικείμενο.

Ε: Πώς μπορώ να αποθηκεύσω το εξαγόμενο κείμενο σε ένα αρχείο;

Α: Στο Βήμα 7, θα δημιουργήσετε έναTextWriter, ανοίξτε το αρχείο όπου θέλετε να αποθηκεύσετε το εξαγόμενο κείμενο, γράψτε το εξαγόμενο κείμενο στο αρχείο και, στη συνέχεια, κλείστε τη ροή.

Ε: Ποιο είναι το βασικό στοιχείο από αυτό το σεμινάριο;

Α: Ακολουθώντας αυτό το σεμινάριο, μάθατε πώς να εξάγετε κείμενο από μια συγκεκριμένη σελίδα ενός εγγράφου PDF χρησιμοποιώντας το Aspose.PDF για .NET. Το εξαγόμενο κείμενο έχει αποθηκευτεί σε ένα καθορισμένο αρχείο εξόδου, επιτρέποντάς σας να στοχεύετε και να αναλύετε περιεχόμενο κειμένου από συγκεκριμένες σελίδες.