Sök text med Dot Net Regex

Denna handledning förklarar hur man använder Aspose.PDF för .NET för att söka efter text med .NET reguljära uttryck i ett PDF-dokument. Den medföljande C#-källkoden demonstrerar processen steg för steg.

Förutsättningar

Innan du fortsätter med handledningen, se till att du har följande:

  • Grundläggande kunskaper i programmeringsspråket C#.
  • Aspose.PDF för .NET-biblioteket installerat. Du kan hämta det från Asposes webbplats eller använda NuGet för att installera det i ditt projekt.

Steg 1: Konfigurera projektet

Börja med att skapa ett nytt C#-projekt i din föredragna integrerade utvecklingsmiljö (IDE) och lägg till en referens till Aspose.PDF för .NET-biblioteket.

Steg 2: Importera nödvändiga namnutrymmen

Lägg till följande med hjälp av direktiv i början av din C#-fil för att importera de nödvändiga namnrymden:

using Aspose.Pdf;
using Aspose.Pdf.Text;

Steg 3: Ställ in sökvägen till dokumentkatalogen

Ställ in sökvägen till din dokumentkatalog med hjälp avdataDir variabel:

string dataDir = "YOUR DOCUMENT DIRECTORY";

Byta ut"YOUR DOCUMENT DIRECTORY" med den faktiska sökvägen till din dokumentkatalog.

Steg 4: Skapa ett .NET Regex-objekt

Skapa en.NET Regex objekt för att definiera sökmönstret:

System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");

Byta ut@"[\S]+" med ditt önskade reguljära uttrycksmönster.

Steg 5: Ladda PDF-dokumentet

Ladda PDF-dokumentet med hjälp avDocument klass:

Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");

Byta ut"SearchTextRegex.pdf" med det faktiska namnet på din PDF-fil.

Steg 6: Skaffa en specifik sida

Hämta önskad sida i dokumentet:

Page page = document.Pages[1];

Byta ut1 med önskat sidnummer (1-baserat index).

Steg 7: Skapa en TextFragmentAbsorber

Skapa enTextFragmentAbsorber objekt för att hitta alla instanser av det inmatade reguljära uttrycket:

TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;

Steg 8: Acceptera absorbenten för sidan

Acceptera absorbenten för sidan:

page.Accept(textFragmentAbsorber);

Steg 9: Hämta de extraherade textfragmenten

Hämta de extraherade textfragmenten med hjälp avTextFragments egendom avTextFragmentAbsorber objekt:

TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

Steg 10: Gå igenom textfragmenten

Gå igenom de hämtade textfragmenten och utför önskade åtgärder:

foreach (TextFragment textFragment in textFragmentCollection)
{
	Console.WriteLine(textFragment.Text);
}

Ändra koden i slingan för att utföra ytterligare åtgärder på varje textfragment om det behövs.

Exempel på källkod för söktext med Dot Net Regex med Aspose.PDF för .NET

string dataDir = "YOUR DOCUMENT DIRECTORY";
// Skapa Regex-objekt för att hitta alla ord
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");
// Öppna dokumentet
Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");
// Skaffa en viss sida
Page page = document.Pages[1];
// Skapa TextAbsorber-objekt för att hitta alla instanser av indataregexet
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;
// Acceptera absorbenten för sidan
page.Accept(textFragmentAbsorber);
// Hämta de extraherade textfragmenten
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// Gå igenom fragmenten
foreach (TextFragment textFragment in textFragmentCollection)
{
	Console.WriteLine(textFragment.Text);
}

Slutsats

Grattis! Du har framgångsrikt lärt dig hur du söker efter text med reguljära .NET-uttryck i ett PDF-dokument med Aspose.PDF för .NET. Den här handledningen gav en steg-för-steg-guide, från att ställa in projektet till att komma åt de extraherade textfragmenten. Du kan nu infoga den här koden i dina egna C#-projekt för att utföra avancerade textsökningar i PDF-filer.

FAQ’s

F: Vad är syftet med handledningen “Sök text med Dot Net Regex”?

S: Handledningen “Sök text med Dot Net Regex” syftar till att vägleda användare hur de använder Aspose.PDF-biblioteket för .NET för att söka efter text i ett PDF-dokument med reguljära .NET-uttryck. Handledningen innehåller steg-för-steg-instruktioner och C#-kodexempel för att demonstrera processen.

F: Hur hjälper den här handledningen vid sökning efter text med reguljära .NET-uttryck i en PDF?

S: Denna handledning hjälper användare att förstå hur man kan utnyttja funktionerna i Aspose.PDF för .NET för att söka efter text med reguljära .NET-uttryck i ett PDF-dokument. Genom att följa stegen och kodexemplen kan användare effektivt söka efter textmönster som matchar deras angivna reguljära uttryck.

F: Vilka förutsättningar krävs för att följa denna handledning?

S: Innan du startar handledningen bör du ha en grundläggande förståelse för programmeringsspråket C#. Dessutom måste du ha Aspose.PDF för .NET-biblioteket installerat. Du kan hämta det från Asposes webbplats eller installera det i ditt projekt med NuGet.

F: Hur ställer jag in mitt projekt för att följa denna handledning?

S: Till att börja, skapa ett nytt C#-projekt i din föredragna integrerade utvecklingsmiljö (IDE) och lägg till en referens till Aspose.PDF för .NET-biblioteket. Detta gör att du kan använda bibliotekets funktioner för att söka och arbeta med PDF-dokument.

F: Kan jag använda den här handledningen för att söka efter någon specifik typ av text med .NET reguljära uttryck?

S: Ja, den här handledningen ger instruktioner om hur du söker efter text med .NET reguljära uttryck i ett PDF-dokument. Du kan anpassa.NET Regex objekt för att definiera det specifika sökmönster du vill använda.

F: Hur anger jag det reguljära uttrycksmönster för .NET som jag ska söka efter i den här handledningen?

S: För att specificera .NET reguljära uttrycksmönster som du vill söka efter, skapa en.NET Regex objekt och ställ in dess mönster med hjälp av lämplig syntax för reguljära uttryck. Ersätt standard@"[\S]+" i handledningens kod med ditt önskade reguljära uttryck.

F: Hur hämtar jag egenskaperna för de extraherade textfragmenten?

S: Efter att ha accepteratTextFragmentAbsorber för en specifik sida i PDF:en kan du hämta de extraherade textfragmenten med hjälp avTextFragments absorbatorobjektets egenskap. Detta ger tillgång till en samling textfragment som matchar det angivna reguljära uttrycket .NET.

F: Kan jag anpassa koden för att utföra ytterligare åtgärder på varje extraherat textfragment?

A: Visst. Handledningens exempelkod innehåller en loop för att iterera genom de hämtade textfragmenten. Du kan anpassa koden i denna loop för att utföra ytterligare åtgärder på varje extraherat textfragment baserat på dina projektkrav.

F: Hur sparar jag det ändrade PDF-dokumentet efter att ha extraherat textfragment?

S: Den här handledningen fokuserar i första hand på att söka efter text med .NET reguljära uttryck och att hämta textfragment. Om du tänker göra ändringar i PDF:en kan du hänvisa till annan Aspose.PDF-dokumentation för att lära dig hur du manipulerar och sparar dokumentet baserat på dina specifika behov.