Extrahera textsida i PDF-fil
Denna handledning guidar dig genom processen att extrahera text från en specifik sida i PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen.
Krav
Innan du börjar, se till att du har följande:
- Visual Studio eller någon annan C#-kompilator installerad på din maskin.
- Aspose.PDF för .NET-bibliotek. Du kan ladda ner den från den officiella Aspose-webbplatsen eller använda en pakethanterare som NuGet för att installera den.
Steg 1: Konfigurera projektet
- Skapa ett nytt C#-projekt i din föredragna utvecklingsmiljö.
- Lägg till en referens till Aspose.PDF för .NET-biblioteket.
Steg 2: Importera nödvändiga namnrymder
I kodfilen där du vill extrahera text, lägg till följande med hjälp av direktiv överst i filen:
using Aspose.Pdf;
using System.IO;
Steg 3: Ställ in dokumentkatalogen
I koden, lokalisera raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY";
och byt ut"YOUR DOCUMENT DIRECTORY"
med sökvägen till katalogen där dina dokument är lagrade.
Steg 4: Öppna PDF-dokumentet
Öppna ett befintligt PDF-dokument med hjälp avDocument
konstruktorn och skickar sökvägen till indata-PDF-filen.
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
Steg 5: Extrahera text från en specifik sida
Skapa enTextAbsorber
objekt för att extrahera text från dokumentet. Acceptera absorbenten för den önskade sidan genom att komma åt den viaPages
samling avpdfDocument
.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);
Steg 6: Hämta den extraherade texten
Få åtkomst till den extraherade texten frånTextAbsorber
objekt.
string extractedText = textAbsorber.Text;
Steg 7: Spara den extraherade texten
Skapa enTextWriter
och öppna filen där du vill spara den extraherade texten. Skriv den extraherade texten till filen och stäng strömmen.
dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();
Exempel på källkod för extrahera textsida med Aspose.PDF för .NET
// Sökvägen till dokumentkatalogen.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Öppna dokumentet
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Skapa TextAbsorber-objekt för att extrahera text
TextAbsorber textAbsorber = new TextAbsorber();
//Acceptera absorbenten för en viss sida
pdfDocument.Pages[1].Accept(textAbsorber);
// Hämta den extraherade texten
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Skapa en skribent och öppna filen
TextWriter tw = new StreamWriter(dataDir);
// Skriv en textrad till filen
tw.WriteLine(extractedText);
// Stäng strömmen
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);
Slutsats
Du har framgångsrikt extraherat text från en specifik sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i den angivna utdatafilen.
FAQ’s
F: Vad är syftet med denna handledning?
S: Denna handledning guidar dig genom processen att extrahera text från en specifik sida i en PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen för att uppnå denna uppgift.
F: Vilka namnområden ska jag importera?
S: I kodfilen där du planerar att extrahera text, inkludera följande med hjälp av direktiv i början av filen:
using Aspose.Pdf;
using System.IO;
F: Hur anger jag dokumentkatalogen?
S: I koden, hitta raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY";
och byt ut"YOUR DOCUMENT DIRECTORY"
med den faktiska sökvägen till din dokumentkatalog.
F: Hur öppnar jag ett befintligt PDF-dokument?
S: I steg 4 öppnar du ett befintligt PDF-dokument med hjälp avDocument
konstruktor och tillhandahåller sökvägen till PDF-inmatningsfilen.
F: Hur extraherar jag text från en specifik sida?
S: Steg 5 innebär att skapa enTextAbsorber
objekt för att extrahera text från PDF-dokumentet. Du accepterar sedan absorbenten för den önskade sidan genom att komma åt den viaPages
samling avpdfDocument
.
F: Hur kommer jag åt den extraherade texten?
S: Steg 6 guidar dig genom att komma åt den extraherade texten frånTextAbsorber
objekt.
F: Hur sparar jag den extraherade texten till en fil?
S: I steg 7 skapar du enTextWriter
, öppna filen där du vill spara den extraherade texten, skriv den extraherade texten till filen och stäng sedan strömmen.
F: Vad är nyckeln till den här handledningen?
S: Genom att följa denna handledning har du lärt dig hur du extraherar text från en specifik sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i en specificerad utdatafil, vilket gör att du kan rikta in och analysera textinnehåll från specifika sidor.