Extrahera textsida i PDF-fil

Denna handledning guidar dig genom processen att extrahera text från en specifik sida i PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen.

Krav

Innan du börjar, se till att du har följande:

  • Visual Studio eller någon annan C#-kompilator installerad på din maskin.
  • Aspose.PDF för .NET-bibliotek. Du kan ladda ner den från den officiella Aspose-webbplatsen eller använda en pakethanterare som NuGet för att installera den.

Steg 1: Konfigurera projektet

  1. Skapa ett nytt C#-projekt i din föredragna utvecklingsmiljö.
  2. Lägg till en referens till Aspose.PDF för .NET-biblioteket.

Steg 2: Importera nödvändiga namnrymder

I kodfilen där du vill extrahera text, lägg till följande med hjälp av direktiv överst i filen:

using Aspose.Pdf;
using System.IO;

Steg 3: Ställ in dokumentkatalogen

I koden, lokalisera raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY"; och byt ut"YOUR DOCUMENT DIRECTORY" med sökvägen till katalogen där dina dokument är lagrade.

Steg 4: Öppna PDF-dokumentet

Öppna ett befintligt PDF-dokument med hjälp avDocumentkonstruktorn och skickar sökvägen till indata-PDF-filen.

Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");

Steg 5: Extrahera text från en specifik sida

Skapa enTextAbsorber objekt för att extrahera text från dokumentet. Acceptera absorbenten för den önskade sidan genom att komma åt den viaPages samling avpdfDocument.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);

Steg 6: Hämta den extraherade texten

Få åtkomst till den extraherade texten frånTextAbsorber objekt.

string extractedText = textAbsorber.Text;

Steg 7: Spara den extraherade texten

Skapa enTextWriter och öppna filen där du vill spara den extraherade texten. Skriv den extraherade texten till filen och stäng strömmen.

dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();

Exempel på källkod för extrahera textsida med Aspose.PDF för .NET

// Sökvägen till dokumentkatalogen.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Öppna dokumentet
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Skapa TextAbsorber-objekt för att extrahera text
TextAbsorber textAbsorber = new TextAbsorber();
//Acceptera absorbenten för en viss sida
pdfDocument.Pages[1].Accept(textAbsorber);
// Hämta den extraherade texten
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Skapa en skribent och öppna filen
TextWriter tw = new StreamWriter(dataDir);
// Skriv en textrad till filen
tw.WriteLine(extractedText);
// Stäng strömmen
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);

Slutsats

Du har framgångsrikt extraherat text från en specifik sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i den angivna utdatafilen.

FAQ’s

F: Vad är syftet med denna handledning?

S: Denna handledning guidar dig genom processen att extrahera text från en specifik sida i en PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen för att uppnå denna uppgift.

F: Vilka namnområden ska jag importera?

S: I kodfilen där du planerar att extrahera text, inkludera följande med hjälp av direktiv i början av filen:

using Aspose.Pdf;
using System.IO;

F: Hur anger jag dokumentkatalogen?

S: I koden, hitta raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY"; och byt ut"YOUR DOCUMENT DIRECTORY" med den faktiska sökvägen till din dokumentkatalog.

F: Hur öppnar jag ett befintligt PDF-dokument?

S: I steg 4 öppnar du ett befintligt PDF-dokument med hjälp avDocument konstruktor och tillhandahåller sökvägen till PDF-inmatningsfilen.

F: Hur extraherar jag text från en specifik sida?

S: Steg 5 innebär att skapa enTextAbsorber objekt för att extrahera text från PDF-dokumentet. Du accepterar sedan absorbenten för den önskade sidan genom att komma åt den viaPages samling avpdfDocument.

F: Hur kommer jag åt den extraherade texten?

S: Steg 6 guidar dig genom att komma åt den extraherade texten frånTextAbsorber objekt.

F: Hur sparar jag den extraherade texten till en fil?

S: I steg 7 skapar du enTextWriter, öppna filen där du vill spara den extraherade texten, skriv den extraherade texten till filen och stäng sedan strömmen.

F: Vad är nyckeln till den här handledningen?

S: Genom att följa denna handledning har du lärt dig hur du extraherar text från en specifik sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i en specificerad utdatafil, vilket gör att du kan rikta in och analysera textinnehåll från specifika sidor.