Αναζήτηση σελίδας τμημάτων κειμένου σε αρχείο PDF

Αυτό το σεμινάριο εξηγεί πώς να χρησιμοποιήσετε το Aspose.PDF για .NET για να αναζητήσετε συγκεκριμένα τμήματα κειμένου σε μια σελίδα αρχείου PDF και να ανακτήσετε τις ιδιότητές τους. Ο παρεχόμενος πηγαίος κώδικας C# δείχνει τη διαδικασία βήμα προς βήμα.

Προαπαιτούμενα

Πριν συνεχίσετε με το σεμινάριο, βεβαιωθείτε ότι έχετε τα εξής:

Βασικές γνώσεις γλώσσας προγραμματισμού C#.
Εγκαταστάθηκε το Aspose.PDF για τη βιβλιοθήκη .NET. Μπορείτε να το αποκτήσετε από τον ιστότοπο Aspose ή να χρησιμοποιήσετε το NuGet για να το εγκαταστήσετε στο έργο σας.

Βήμα 1: Ρύθμιση του έργου

Ξεκινήστε δημιουργώντας ένα νέο έργο C# στο ενσωματωμένο περιβάλλον ανάπτυξης (IDE) που προτιμάτε και προσθέστε μια αναφορά στη βιβλιοθήκη Aspose.PDF για .NET.

Βήμα 2: Εισαγάγετε τους απαραίτητους χώρους ονομάτων

Προσθέστε τα ακόλουθα χρησιμοποιώντας οδηγίες στην αρχή του αρχείου C# για να εισαγάγετε τους απαιτούμενους χώρους ονομάτων:

using Aspose.Pdf;
using Aspose.Pdf.Text;

Βήμα 3: Ορίστε τη διαδρομή προς τον κατάλογο εγγράφων

Ορίστε τη διαδρομή προς τον κατάλογο εγγράφων σας χρησιμοποιώντας τοdataDir μεταβλητός:

string dataDir = "YOUR DOCUMENT DIRECTORY";

Αντικαθιστώ"YOUR DOCUMENT DIRECTORY" με την πραγματική διαδρομή προς τον κατάλογο εγγράφων σας.

Βήμα 4: Φορτώστε το έγγραφο PDF

Φορτώστε το έγγραφο PDF χρησιμοποιώντας τοDocument τάξη:

Document pdfDocument = new Document(dataDir + "SearchTextSegmentsPage.pdf");

Αντικαθιστώ"SearchTextSegmentsPage.pdf" με το πραγματικό όνομα του αρχείου PDF σας.

Βήμα 5: Δημιουργήστε ένα TextFragmentAbsorber

Δημιουργώ έναTextFragmentAbsorber αντικείμενο για να βρείτε όλες τις παρουσίες της φράσης αναζήτησης εισόδου:

TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");

Αντικαθιστώ"text" με την επιθυμητή φράση αναζήτησης.

Βήμα 6: Αποδεχτείτε τον απορροφητή για μια συγκεκριμένη σελίδα

Αποδεχτείτε τον απορροφητή για την επιθυμητή σελίδα του εγγράφου:

pdfDocument.Pages[2].Accept(textFragmentAbsorber);

Αντικαθιστώ2 με τον επιθυμητό αριθμό σελίδας (ευρετήριο βάσει 1).

Βήμα 7: Ανακτήστε τα εξαγόμενα τμήματα κειμένου

Λάβετε τα εξαγόμενα τμήματα κειμένου χρησιμοποιώντας τοTextFragments ιδιοκτησία τουTextFragmentAbsorber αντικείμενο:

TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

Βήμα 8: Περιηγηθείτε στα τμήματα κειμένου

Κάντε βρόχο στα ανακτημένα τμήματα κειμένου και αποκτήστε πρόσβαση στις ιδιότητές τους:

foreach (TextFragment textFragment in textFragmentCollection)
{
	foreach (TextSegment textSegment in textFragment.Segments)
	{
		Console.WriteLine("Text: {0} ", textSegment.Text);
		Console.WriteLine("Position: {0} ", textSegment.Position);
		Console.WriteLine("XIndent: {0} ", textSegment.Position.XIndent);
		Console.WriteLine("YIndent: {0} ", textSegment.Position.YIndent);
		Console.WriteLine("Font - Name: {0}", textSegment.TextState.Font.FontName);
		Console.WriteLine("Font - IsAccessible: {0} ", textSegment.TextState.Font.IsAccessible);
		Console.WriteLine("Font - IsEmbedded: {0} ", textSegment.TextState.Font.IsEmbedded);
		Console.WriteLine("Font - IsSubset: {0} ", textSegment.TextState.Font.IsSubset);
		Console.WriteLine("Font Size: {0} ", textSegment.TextState.FontSize);
		Console.WriteLine("Foreground Color: {0} ", textSegment.TextState.ForegroundColor);
	}
}

Τροποποιήστε τον κώδικα εντός του βρόχου για να εκτελέσετε περαιτέρω ενέργειες σε κάθε τμήμα κειμένου, εάν χρειάζεται.

Δείγμα πηγαίου κώδικα για τη σελίδα τμημάτων κειμένου αναζήτησης χρησιμοποιώντας το Aspose.PDF για .NET

// Η διαδρομή προς τον κατάλογο εγγράφων.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Άνοιγμα εγγράφου
Document pdfDocument = new Document(dataDir + "SearchTextSegmentsPage.pdf");
// Δημιουργήστε αντικείμενο TextAbsorber για να βρείτε όλες τις εμφανίσεις της φράσης αναζήτησης
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");
// Αποδεχτείτε τον απορροφητήρα για όλες τις σελίδες
pdfDocument.Pages[2].Accept(textFragmentAbsorber);
// Λάβετε τα εξαγόμενα τμήματα κειμένου
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// Περιηγηθείτε στα θραύσματα
foreach (TextFragment textFragment in textFragmentCollection)
{
	foreach (TextSegment textSegment in textFragment.Segments)
	{
		Console.WriteLine("Text : {0} ", textSegment.Text);
		Console.WriteLine("Position : {0} ", textSegment.Position);
		Console.WriteLine("XIndent : {0} ",
		textSegment.Position.XIndent);
		Console.WriteLine("YIndent : {0} ",
		textSegment.Position.YIndent);
		Console.WriteLine("Font - Name : {0}",
		textSegment.TextState.Font.FontName);
		Console.WriteLine("Font - IsAccessible : {0} ",
		textSegment.TextState.Font.IsAccessible);
		Console.WriteLine("Font - IsEmbedded : {0} ",
		textSegment.TextState.Font.IsEmbedded);
		Console.WriteLine("Font - IsSubset : {0} ",
		textSegment.TextState.Font.IsSubset);
		Console.WriteLine("Font Size : {0} ",
		textSegment.TextState.FontSize);
		Console.WriteLine("Foreground Color : {0} ",
		textSegment.TextState.ForegroundColor);
	}
}

συμπέρασμα

Συγχαρητήρια! Έχετε μάθει με επιτυχία πώς να αναζητάτε συγκεκριμένα τμήματα κειμένου σε μια σελίδα ενός εγγράφου PDF χρησιμοποιώντας το Aspose.PDF για .NET. Αυτό το σεμινάριο παρείχε έναν οδηγό βήμα προς βήμα, από τη φόρτωση του εγγράφου έως την πρόσβαση στα εξαγόμενα τμήματα κειμένου. Τώρα μπορείτε να ενσωματώσετε αυτόν τον κώδικα στα δικά σας έργα C# για να εκτελέσετε σύνθετες αναζητήσεις τμημάτων κειμένου σε αρχεία PDF.

Συχνές ερωτήσεις

Ε: Ποιος είναι ο σκοπός του σεμιναρίου “Αναζήτηση σελίδας τμημάτων κειμένου σε αρχείο PDF”;

Α: Το σεμινάριο “Αναζήτηση τμημάτων κειμένου σελίδας σε αρχείο PDF” παρέχει έναν περιεκτικό οδηγό σχετικά με τον τρόπο χρήσης της βιβλιοθήκης Aspose.PDF για .NET για την αναζήτηση συγκεκριμένων τμημάτων κειμένου σε μια συγκεκριμένη σελίδα ενός εγγράφου PDF. Καλύπτει τη διαδικασία ρύθμισης ενός έργου, τη φόρτωση ενός εγγράφου PDF, την αναζήτηση τμημάτων κειμένου και την ανάκτηση των ιδιοτήτων τους χρησιμοποιώντας κώδικα C#.

Ε: Πώς βοηθά αυτό το σεμινάριο στην αναζήτηση συγκεκριμένων τμημάτων κειμένου σε ένα έγγραφο PDF;

Α: Αυτό το σεμινάριο δείχνει τη διαδικασία εντοπισμού και εξαγωγής συγκεκριμένων τμημάτων κειμένου σε μια συγκεκριμένη σελίδα ενός εγγράφου PDF. Ακολουθώντας τα βήματα και τα δείγματα κώδικα που παρέχονται, οι χρήστες μπορούν να αναζητήσουν αποτελεσματικά τα επιθυμητά τμήματα κειμένου και να ανακτήσουν πληροφορίες σχετικά με τις ιδιότητές τους.

Ε: Ποιες προϋποθέσεις απαιτούνται για να ακολουθήσετε αυτό το σεμινάριο;

Α: Πριν ξεκινήσετε το σεμινάριο, θα πρέπει να έχετε μια βασική κατανόηση της γλώσσας προγραμματισμού C#. Επιπλέον, πρέπει να έχετε εγκατεστημένη τη βιβλιοθήκη Aspose.PDF για .NET. Μπορείτε να το αποκτήσετε από τον ιστότοπο Aspose ή να το εγκαταστήσετε στο έργο σας χρησιμοποιώντας το NuGet.

Ε: Πώς μπορώ να ρυθμίσω το έργο μου για να ακολουθήσω αυτό το σεμινάριο;

Α: Για να ξεκινήσετε, δημιουργήστε ένα νέο έργο C# στο προτιμώμενο περιβάλλον ολοκληρωμένης ανάπτυξης (IDE) και προσθέστε μια αναφορά στη βιβλιοθήκη Aspose.PDF για .NET. Αυτό θα σας επιτρέψει να χρησιμοποιήσετε τις δυνατότητες της βιβλιοθήκης για αναζήτηση και εργασία με έγγραφα PDF.

Ε: Μπορώ να χρησιμοποιήσω αυτό το σεμινάριο για να αναζητήσω συγκεκριμένα τμήματα κειμένου σε οποιαδήποτε σελίδα ενός PDF;

Α: Ναι, αυτό το σεμινάριο παρέχει οδηγίες σχετικά με τον τρόπο αναζήτησης συγκεκριμένων τμημάτων κειμένου σε μια επιλεγμένη σελίδα ενός εγγράφου PDF. Καθοδηγεί τους χρήστες στη ρύθμιση ενός έργου, στη φόρτωση ενός PDF και στη χρήση της βιβλιοθήκης Aspose.PDF για τον εντοπισμό και την ανάκτηση ιδιοτήτων των επιθυμητών τμημάτων κειμένου.

Ε: Πώς μπορώ να καθορίσω το κείμενο που θέλω να αναζητήσω σε αυτόν τον οδηγό;

Α: Για να καθορίσετε το κείμενο που θέλετε να αναζητήσετε, δημιουργήστε έναTextFragmentAbsorber αντικείμενο και ορίστε την παράμετρο αναζήτησης χρησιμοποιώντας τοText ιδιοκτησία. Αντικαταστήστε την προεπιλογή"text" στον κώδικα του σεμιναρίου με την επιθυμητή φράση αναζήτησης.

Ε: Πώς μπορώ να ανακτήσω ιδιότητες των εξαγόμενων τμημάτων κειμένου;

Μετά την αποδοχή τουTextFragmentAbsorber για μια συγκεκριμένη σελίδα του PDF, μπορείτε να ανακτήσετε τα εξαγόμενα τμήματα κειμένου χρησιμοποιώντας τοTextFragments ιδιότητα του αντικειμένου απορρόφησης. Αυτό παρέχει πρόσβαση σε μια συλλογή αποσπασμάτων κειμένου, το καθένα από τα οποία περιέχει πολλά τμήματα κειμένου.

Ε: Μπορώ να προσαρμόσω τον κώδικα για να εκτελώ πρόσθετες ενέργειες σε κάθε τμήμα κειμένου;

Α: Απολύτως. Το δείγμα κώδικα του σεμιναρίου παρέχει έναν βρόχο για επανάληψη μέσω των ανακτημένων τμημάτων κειμένου. Μπορείτε να προσαρμόσετε τον κώδικα σε αυτόν τον βρόχο για να εκτελέσετε πρόσθετες ενέργειες σε κάθε τμήμα κειμένου, με βάση τις απαιτήσεις του έργου σας.

Ε: Πώς μπορώ να αποθηκεύσω το τροποποιημένο έγγραφο PDF μετά την εξαγωγή τμημάτων κειμένου;

Α: Αυτό το σεμινάριο εστιάζει κυρίως στην αναζήτηση τμημάτων κειμένου και στην ανάκτηση των ιδιοτήτων τους. Εάν σκοπεύετε να κάνετε τροποποιήσεις στο PDF, μπορείτε να ανατρέξετε σε άλλη τεκμηρίωση του Aspose.PDF για να μάθετε πώς να χειρίζεστε και να αποθηκεύετε το έγγραφο με βάση τις συγκεκριμένες ανάγκες σας.

Αναζήτηση κειμένου και σχεδίαση ορθογωνίου Αναζήτηση κειμένου με Dot Net Regex