Tekstpagina uitpakken in PDF-bestand

Deze tutorial begeleidt u bij het extraheren van tekst van een specifieke pagina in een PDF-bestand met Aspose.PDF voor .NET. De meegeleverde C#-broncode demonstreert de noodzakelijke stappen.

Vereisten

Zorg ervoor dat u over het volgende beschikt voordat u begint:

  • Visual Studio of een andere C#-compiler die op uw computer is geïnstalleerd.
  • Aspose.PDF voor .NET-bibliotheek. Je kunt het downloaden van de officiële Aspose-website of een pakketbeheerder zoals NuGet gebruiken om het te installeren.

Stap 1: Zet het project op

  1. Maak een nieuw C#-project in de ontwikkelomgeving van uw voorkeur.
  2. Voeg een verwijzing toe naar de Aspose.PDF voor .NET-bibliotheek.

Stap 2: Importeer de vereiste naamruimten

Voeg in het codebestand waarin u tekst wilt extraheren het volgende toe met behulp van richtlijnen bovenaan het bestand:

using Aspose.Pdf;
using System.IO;

Stap 3: Stel de documentmap in

Zoek in de code de regel met de tekststring dataDir = "YOUR DOCUMENT DIRECTORY"; en vervangen"YOUR DOCUMENT DIRECTORY" met het pad naar de map waar uw documenten zijn opgeslagen.

Stap 4: Open het PDF-document

Open een bestaand PDF-document met behulp van deDocumentconstructor en geef het pad door aan het invoer-PDF-bestand.

Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");

Stap 5: Extraheer tekst van een specifieke pagina

Maak eenTextAbsorber object om tekst uit het document te extraheren. Accepteer de absorber voor de gewenste pagina door deze te openen via dePages verzameling van depdfDocument.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);

Stap 6: Haal de geëxtraheerde tekst op

Toegang tot de geëxtraheerde tekst uit hetTextAbsorber voorwerp.

string extractedText = textAbsorber.Text;

Stap 7: Sla de geëxtraheerde tekst op

Maak eenTextWriter en open het bestand waarin u de geëxtraheerde tekst wilt opslaan. Schrijf de geëxtraheerde tekst naar het bestand en sluit de stream.

dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();

Voorbeeldbroncode voor het extraheren van tekstpagina met Aspose.PDF voor .NET

// Het pad naar de documentenmap.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Document openen
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Maak een TextAbsorber-object om tekst te extraheren
TextAbsorber textAbsorber = new TextAbsorber();
//Accepteer de absorber voor een bepaalde pagina
pdfDocument.Pages[1].Accept(textAbsorber);
// Haal de geëxtraheerde tekst op
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Maak een schrijver en open het bestand
TextWriter tw = new StreamWriter(dataDir);
// Schrijf een regel tekst naar het bestand
tw.WriteLine(extractedText);
// Sluit de stroom
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);

Conclusie

U hebt met succes tekst uit een specifieke pagina van een PDF-document geëxtraheerd met Aspose.PDF voor .NET. De geëxtraheerde tekst is opgeslagen in het opgegeven uitvoerbestand.

Veelgestelde vragen

Vraag: Wat is het doel van deze tutorial?

A: Deze tutorial leidt u door het proces van het extraheren van tekst van een specifieke pagina in een PDF-bestand met Aspose.PDF voor .NET. De bijbehorende C#-broncode demonstreert de vereiste stappen om deze taak te bereiken.

Vraag: Welke naamruimten moet ik importeren?

A: In het codebestand waarin u tekst wilt extraheren, neemt u de volgende gebruiksinstructies op aan het begin van het bestand:

using Aspose.Pdf;
using System.IO;

Vraag: Hoe geef ik de documentmap op?

A: Zoek in de code de regel die zegtstring dataDir = "YOUR DOCUMENT DIRECTORY"; en vervangen"YOUR DOCUMENT DIRECTORY" met het daadwerkelijke pad naar uw documentmap.

Vraag: Hoe open ik een bestaand PDF-document?

A: In stap 4 opent u een bestaand PDF-document met behulp van deDocument constructor en het pad naar het invoer-PDF-bestand opgeven.

Vraag: Hoe extraheer ik tekst van een specifieke pagina?

A: Stap 5 omvat het maken van eenTextAbsorber object om tekst uit het PDF-document te extraheren. Vervolgens accepteert u de absorber voor de gewenste pagina door deze te openen via dePages verzameling van depdfDocument.

Vraag: Hoe krijg ik toegang tot de geëxtraheerde tekst?

A: Stap 6 begeleidt u bij het openen van de geëxtraheerde tekst uit hetTextAbsorber voorwerp.

Vraag: Hoe sla ik de geëxtraheerde tekst op in een bestand?

A: In stap 7 maakt u eenTextWriter, open het bestand waarin u de geëxtraheerde tekst wilt opslaan, schrijf de geëxtraheerde tekst naar het bestand en sluit vervolgens de stream.

Vraag: Wat is de belangrijkste conclusie uit deze tutorial?

A: Door deze tutorial te volgen, heb je geleerd hoe je tekst uit een specifieke pagina van een PDF-document kunt extraheren met Aspose.PDF voor .NET. De geëxtraheerde tekst is opgeslagen in een opgegeven uitvoerbestand, zodat u de tekstinhoud van specifieke pagina’s kunt targeten en analyseren.