Εξαγωγή επισημασμένου κειμένου σε αρχείο PDF

Για να εξαγάγετε επισημασμένο κείμενο σε αρχείο PDF, μπορείτε να χρησιμοποιήσετε το Aspose.PDF για .NET API. Αυτό το API παρέχει έναν απλό τρόπο ανάκτησης όλου του κειμένου που έχει επισημανθεί σε ένα έγγραφο.

Βήμα 1: Φορτώστε το έγγραφο PDF

Το πρώτο βήμα για την εξαγωγή επισημασμένου κειμένου σε αρχείο PDF είναι να φορτώσετε το έγγραφο χρησιμοποιώντας το Aspose.PDF για .NET API. Μπορείτε να το κάνετε αυτό δημιουργώντας μια νέα παρουσία τουDocument κλάση και μεταβίβαση της διαδρομής στο έγγραφο PDF ως παράμετρος.

// Η διαδρομή προς τον κατάλογο εγγράφων.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Βήμα 2: Περιηγηθείτε σε όλους τους σχολιασμούς

Το επόμενο βήμα είναι να πραγματοποιήσετε αναζήτηση σε όλους τους σχολιασμούς στο έγγραφο PDF. Μπορείτε να το κάνετε αυτό χρησιμοποιώντας έναforeach βρόχος, όπως έτσι:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	// Ο κώδικας πηγαίνει εδώ
}

Βήμα 3: Φιλτράρετε τους σχολιασμούς σήμανσης κειμένου

μεσα στηνforeach βρόχο, θα χρειαστεί να φιλτράρετε όλους τους σχολιασμούς που δεν είναι σχολιασμοί σήμανσης κειμένου. Μπορείτε να το κάνετε αυτό ελέγχοντας εάν ο σχολιασμός είναι ένα παράδειγμα τουTextMarkupAnnotation τάξη.

if (annotation is TextMarkupAnnotation)
{
	// Ο κώδικας πηγαίνει εδώ
}

Βήμα 4: Ανάκτηση επισημασμένων τμημάτων κειμένου

Αφού φιλτράρετε όλους τους σχολιασμούς σήμανσης κειμένου, μπορείτε να ανακτήσετε τα επισημασμένα τμήματα κειμένου για κάθε σχολιασμό. Μπορείτε να το κάνετε καλώντας τοGetMarkedTextFragments() μέθοδος στοTextMarkupAnnotation αντικείμενο.

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

Βήμα 5: Εμφανίστε το επισημασμένο κείμενο

Τέλος, μπορείτε να εμφανίσετε το επισημασμένο κείμενο στον χρήστη. Μπορείτε να το κάνετε αυτό κάνοντας looping μέσα από το καθέναTextFragment αντικείμενο στοTextFragmentCollection και καλώντας τοText ιδιοκτησία.

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

Παράδειγμα πηγαίου κώδικα για εξαγωγή επισημασμένου κειμένου χρησιμοποιώντας το Aspose.PDF για .NET

// Η διαδρομή προς τον κατάλογο εγγράφων.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

συμπέρασμα

Σε αυτό το σεμινάριο, εξερευνήσαμε τον τρόπο εξαγωγής επισημασμένου κειμένου από ένα έγγραφο PDF χρησιμοποιώντας το Aspose.PDF για .NET. Ακολουθώντας τον οδηγό βήμα προς βήμα και χρησιμοποιώντας τον παρεχόμενο πηγαίο κώδικα C#, οι προγραμματιστές μπορούν εύκολα να εξαγάγουν και να διαχειρίζονται το επισημασμένο κείμενο στα έγγραφα PDF τους.

Συχνές ερωτήσεις για εξαγωγή επισημασμένου κειμένου σε αρχείο PDF

Ε: Τι είναι οι σχολιασμοί σήμανσης κειμένου σε ένα έγγραφο PDF;

Α: Οι σχολιασμοί σήμανσης κειμένου είναι σχολιασμοί που επισημαίνουν ή επισημαίνουν συγκεκριμένο κείμενο σε ένα έγγραφο PDF. Παραδείγματα σχολιασμών σήμανσης κειμένου περιλαμβάνουν επισημάνσεις, υπογραμμίσεις και διαγραμμίσεις.

Ε: Μπορώ να εξαγάγω κείμενο από άλλους τύπους σχολιασμών χρησιμοποιώντας το Aspose.PDF για .NET;

Α: Ναι, το Aspose.PDF για .NET παρέχει διάφορες μεθόδους εξαγωγής κειμένου από διαφορετικούς τύπους σχολιασμών, συμπεριλαμβανομένων σχολιασμών σήμανσης κειμένου, σχολιασμών ελεύθερου κειμένου και άλλων.

Ε: Το Aspose.PDF για .NET υποστηρίζει την εξαγωγή κειμένου από αρχεία PDF που προστατεύονται με κωδικό πρόσβασης;

Α: Ναι, το Aspose.PDF για .NET υποστηρίζει την εξαγωγή κειμένου από αρχεία PDF που προστατεύονται με κωδικό πρόσβασης. Πρέπει να παρέχετε τον σωστό κωδικό πρόσβασης κατά τη φόρτωση του εγγράφου PDF χρησιμοποιώντας τοDocument τάξη.

Ε: Μπορώ να φιλτράρω το επισημασμένο κείμενο με βάση άλλα κριτήρια, όπως το χρώμα ή τον συγγραφέα;

Α: Ναι, μπορείτε να φιλτράρετε το επισημασμένο κείμενο με βάση άλλα κριτήρια, όπως το χρώμα, τον συγγραφέα ή την ημερομηνία δημιουργίας. Το Aspose.PDF για .NET παρέχει μεθόδους πρόσβασης και φιλτραρίσματος σχολιασμών με βάση τις ιδιότητές τους.

Ε: Είναι δυνατή η αποθήκευση του επισημασμένου κειμένου που έχει εξαχθεί σε ξεχωριστό αρχείο;

Α: Ναι, μπορείτε να αποθηκεύσετε το εξαγόμενο επισημασμένο κείμενο σε ξεχωριστό αρχείο ή να το αποθηκεύσετε σε μια δομή δεδομένων για περαιτέρω επεξεργασία ή ανάλυση.