Extrahieren Sie Text aus dem Seitenbereich in einer PDF-Datei
Dieses Tutorial führt Sie durch den Prozess des Extrahierens von Text aus einem bestimmten Bereich auf einer Seite in einer PDF-Datei mit Aspose.PDF für .NET. Der bereitgestellte C#-Quellcode demonstriert die notwendigen Schritte.
Anforderungen
Bevor Sie beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:
- Visual Studio oder ein anderer auf Ihrem Computer installierter C#-Compiler.
- Aspose.PDF für .NET-Bibliothek. Sie können es von der offiziellen Aspose-Website herunterladen oder einen Paketmanager wie NuGet verwenden, um es zu installieren.
Schritt 1: Richten Sie das Projekt ein
- Erstellen Sie ein neues C#-Projekt in Ihrer bevorzugten Entwicklungsumgebung.
- Fügen Sie einen Verweis auf die Aspose.PDF für .NET-Bibliothek hinzu.
Schritt 2: Erforderliche Namespaces importieren
Fügen Sie in der Codedatei, in die Sie Text extrahieren möchten, am Anfang der Datei die folgenden using-Anweisungen hinzu:
using Aspose.Pdf;
using System.IO;
Schritt 3: Legen Sie das Dokumentverzeichnis fest
Suchen Sie im Code die Zeile mit der Aufschriftstring dataDir = "YOUR DOCUMENT DIRECTORY";
und ersetzen"YOUR DOCUMENT DIRECTORY"
mit dem Pfad zu dem Verzeichnis, in dem Ihre Dokumente gespeichert sind.
Schritt 4: Öffnen Sie das PDF-Dokument
Öffnen Sie ein vorhandenes PDF-Dokument mitDocument
Konstruktor und Übergabe des Pfads zur Eingabe-PDF-Datei.
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
Schritt 5: Extrahieren Sie Text aus einem Seitenbereich
Ein … kreierenTextAbsorber
Objekt zum Extrahieren von Text aus dem Dokument. Konfigurieren Sie dieTextSearchOptions
um die Suche auf einen bestimmten Seitenbereich zu beschränken, der durch ein Rechteck definiert ist.
TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);
Schritt 6: Holen Sie sich den extrahierten Text
Greifen Sie auf den extrahierten Text zuTextAbsorber
Objekt.
string extractedText = absorb.Text;
Schritt 7: Speichern Sie den extrahierten Text
Ein … kreierenTextWriter
und öffnen Sie die Datei, in der Sie den extrahierten Text speichern möchten. Schreiben Sie den extrahierten Text in die Datei und schließen Sie den Stream.
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();
Beispielquellcode zum Extrahieren von Text aus dem Seitenbereich mit Aspose.PDF für .NET
// Der Pfad zum Dokumentenverzeichnis.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Dokument öffnen
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Erstellen Sie ein TextAbsorber-Objekt, um Text zu extrahieren
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// Akzeptieren Sie den Absorber für die erste Seite
pdfDocument.Pages[1].Accept(absorber);
// Holen Sie sich den extrahierten Text
string extractedText = absorber.Text;
// Erstellen Sie einen Writer und öffnen Sie die Datei
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Schreiben Sie eine Textzeile in die Datei
tw.WriteLine(extractedText);
// Schließen Sie den Stream
tw.Close();
Abschluss
Sie haben mit Aspose.PDF für .NET erfolgreich Text aus einem bestimmten Bereich auf einer Seite eines PDF-Dokuments extrahiert. Der extrahierte Text wurde in der angegebenen Ausgabedatei gespeichert.
FAQs
F: Was ist der Zweck dieses Tutorials?
A: Dieses Tutorial soll Sie durch den Prozess des Extrahierens von Text aus einem bestimmten Bereich auf einer Seite in einer PDF-Datei mit Aspose.PDF für .NET führen. Der zugehörige C#-Quellcode bietet Schritt-für-Schritt-Anleitungen zum Ausführen dieser Aufgabe.
F: Welche Namespaces sollte ich importieren?
A: Fügen Sie in der Codedatei, in der Sie Text extrahieren möchten, die folgenden using-Anweisungen am Anfang der Datei ein:
using Aspose.Pdf;
using System.IO;
F: Wie lege ich das Dokumentenverzeichnis fest?
A: Suchen Sie die Zeilestring dataDir = "YOUR DOCUMENT DIRECTORY";
im Code einfügen und ersetzen"YOUR DOCUMENT DIRECTORY"
mit dem tatsächlichen Pfad zu Ihrem Dokumentverzeichnis.
F: Wie öffne ich ein vorhandenes PDF-Dokument?
A: In Schritt 4 öffnen Sie ein vorhandenes PDF-Dokument mitDocument
Konstruktor und stellt den Pfad zur Eingabe-PDF-Datei bereit.
F: Wie extrahiere ich Text aus einem bestimmten Seitenbereich?
A: Schritt 5 umfasst die Erstellung einesTextAbsorber
Objekt zum Extrahieren von Text aus dem PDF-Dokument. Anschließend konfigurieren Sie dieTextSearchOptions
um mithilfe von Koordinaten einen bestimmten rechteckigen Bereich auf der Seite zu definieren.
F: Wie greife ich auf den extrahierten Text zu?
A: Schritt 6 führt Sie durch den Zugriff auf den extrahierten Text ausTextAbsorber
Objekt.
F: Wie speichere ich den extrahierten Text in einer Datei?
A: In Schritt 7 erstellen Sie eineTextWriter
, öffnen Sie die Datei, in der Sie den extrahierten Text speichern möchten, schreiben Sie den extrahierten Text in die Datei und schließen Sie dann den Stream.
F: Was ist die wichtigste Erkenntnis aus diesem Tutorial?
A: Durch die Befolgung dieses Tutorials haben Sie gelernt, wie Sie mit Aspose.PDF für .NET Text aus einem bestimmten Bereich auf einer Seite eines PDF-Dokuments extrahieren. Der extrahierte Text wurde in einer bestimmten Ausgabedatei gespeichert, sodass Sie den gewünschten Textinhalt präzise ansprechen und analysieren können.