Zoek tekstsegmentenpagina in PDF-bestand

Invoering

Heb je je ooit afgevraagd hoe je specifieke tekstsegmenten in een PDF-document kunt vinden met Aspose.PDF voor .NET? Nou, dan heb je geluk! In deze gids leiden we je door het proces in een eenvoudig, stapsgewijs formaat. Of je nu informatie wilt extraheren, tekst wilt analyseren of gewoon door de complexiteit van PDF-manipulatie wilt navigeren, Aspose.PDF voor .NET helpt je. Laten we erin duiken!

Vereisten

Voordat we beginnen, controleren we of je alles hebt wat je nodig hebt:

Aspose.PDF voor .NET: Zorg dat u de bibliotheek hebt geïnstalleerd. U kunt deze ophalen vanhier.
.NET Framework: Zorg ervoor dat .NET op uw computer is geïnstalleerd.
Ontwikkelomgeving: Visual Studio of een andere .NET-ondersteunde IDE wordt aanbevolen.
PDF-document: Een PDF-bestand waarin u naar tekstsegmenten zoekt.

Als u Aspose.PDF voor .NET nog niet hebt, maak u dan geen zorgen! U kunt een gratis proefversie krijgen vanhier of koop hethier.

Pakketten importeren

Voordat we beginnen met coderen, is het cruciaal om de benodigde pakketten in uw project te importeren. Dit zorgt ervoor dat alle vereiste klassen en methoden beschikbaar zijn voor uw PDF-manipulatietaken.

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

Nu we de basisprincipes onder de knie hebben, kunnen we meteen beginnen met de stapsgewijze handleiding.

Stap 1: Laad het PDF-document

De eerste stap in het proces is het laden van uw PDF-bestand in het programma. Zonder een geladen document is er niets om naar te zoeken, toch? Dit is hoe u dat doet.

// Het pad naar de documentenmap.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Document openen
Document pdfDocument = new Document(dataDir + "SearchTextSegmentsPage.pdf");

dataDir : Deze variabele bevat het pad naar uw PDF-bestand. Vervangen"YOUR DOCUMENT DIRECTORY" met de daadwerkelijke map waar uw bestand is opgeslagen.
pdfDocument : Gebruik van deDocument klasse, laden we de PDF in het geheugen.

Stap 2: Tekst zoeken instellen

Nu uw document is geladen, is de volgende stap het maken van eenTextFragmentAbsorber object, waarmee we naar specifieke tekst in het document kunnen zoeken.

// Maak een TextAbsorber-object om alle instanties van de invoerzoekzin te vinden
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");

TextFragmentAbsorber : Dit object wordt gebruikt om alle voorkomens van de tekst die u zoekt vast te leggen. Vervangen"text" met de tekst waarnaar u daadwerkelijk wilt zoeken.

Stap 3: Accepteer de Absorber voor specifieke pagina’s

wilt misschien niet altijd het hele PDF-document doorzoeken. In dit voorbeeld beperken we het tot een specifieke pagina.

// Accepteer de absorber voor alle pagina's
pdfDocument.Pages[2].Accept(textFragmentAbsorber);

pdfDocument.Pages[2]: Dit geeft aan dat we alleen de tweede pagina van het document doorzoeken. U kunt de index aanpassen om andere pagina’s te targeten.
Accept() :Deze methode maakt het mogelijk omTextFragmentAbsorber om de tekst binnen de opgegeven pagina te verwerken.

Stap 4: De tekstfragmenten extraheren

Nadat we de pagina hebben doorzocht, extraheren we de gevonden tekstfragmenten en voegen deze toe aan een verzameling.

// Haal de geëxtraheerde tekstfragmenten op
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

TextFragmentCollection: Deze collectie bevat alle exemplaren van de tekstfragmenten die tijdens het zoekproces zijn gevonden.

Stap 5: Loop door tekstfragmenten en extraheer gegevens

Laten we nu elk tekstfragment doornemen en de details ervan extraheren, zoals de positie, het lettertype en de kleur.

// Loop door de fragmenten
foreach (TextFragment textFragment in textFragmentCollection)
{
    foreach (TextSegment textSegment in textFragment.Segments)
    {
        Console.WriteLine("Text : {0} ", textSegment.Text);
        Console.WriteLine("Position : {0} ", textSegment.Position);
        Console.WriteLine("XIndent : {0} ", textSegment.Position.XIndent);
        Console.WriteLine("YIndent : {0} ", textSegment.Position.YIndent);
        Console.WriteLine("Font - Name : {0}", textSegment.TextState.Font.FontName);
        Console.WriteLine("Font - IsAccessible : {0} ", textSegment.TextState.Font.IsAccessible);
        Console.WriteLine("Font - IsEmbedded : {0} ", textSegment.TextState.Font.IsEmbedded);
        Console.WriteLine("Font - IsSubset : {0} ", textSegment.TextState.Font.IsSubset);
        Console.WriteLine("Font Size : {0} ", textSegment.TextState.FontSize);
        Console.WriteLine("Foreground Color : {0} ", textSegment.TextState.ForegroundColor);
    }
}

foreach (TextFragment textFragment in textFragmentCollection) :We doorlopen elkTextFragment in de collectie.
foreach (TextSegment textSegment in textFragment.Segments): In elk fragment zitten meerdere segmenten. We loopen er doorheen om alle relevante informatie te verzamelen.
Verschillende eigenschappen vantextSegment:Deze geven ons gedetailleerde informatie over de tekst, zoals de positie (X en Y), lettertypedetails, grootte en kleur.

Stap 6: De resultaten weergeven

Ten slotte, na het extraheren van alle informatie, worden de resultaten afgedrukt in de console. Dit helpt u precies te zien waar de tekst zich bevindt en de opmaakdetails.

Hier is een voorbeelduitvoer voor de duidelijkheid:

Text : text
Position : X: 45.0, Y: 75.0
XIndent : 45.0
YIndent : 75.0
Font - Name : Arial
Font - IsAccessible : True
Font - IsEmbedded : False
Font - IsSubset : False
Font Size : 12.0
Foreground Color : System.Drawing.Color [Black]

Deze uitvoer geeft u de exacte locatie en opmaakinformatie van de tekst “tekst” op de opgegeven pagina.

Conclusie

En daar heb je het! Je hebt zojuist geleerd hoe je specifieke tekstsegmenten in een PDF-document kunt zoeken met Aspose.PDF voor .NET. Dit proces is superhandig bij het werken met grote PDF’s, zodat je de belangrijkste tekst efficiënt kunt lokaliseren en extraheren. Of het nu gaat om het analyseren van gegevens, het extraheren van informatie of gewoon navigeren door een document, Aspose.PDF biedt je krachtige tools om de klus te klaren.

Veelgestelde vragen

Kan ik naar meerdere woorden of zinnen zoeken?

Ja, u kunt deTextFragmentAbsorberom naar andere tekst te zoeken door de invoerreeks te wijzigen.

Is het mogelijk om op meerdere pagina’s te zoeken?

Absoluut! U kunt door alle pagina’s in de PDF heen lopen door te itereren overpdfDocument.Pages.

Hoe zoek ik naar hoofdlettergevoelige tekst?

Je kunt gebruikenTextSearchOptions om hoofdletterongevoelig zoeken mogelijk te maken.

Kan ik de tekst aanpassen nadat ik deze heb gevonden?

Ja, zodra je eenTextFragment, kunt u de teksteigenschappen ervan wijzigen.

Is deze methode toepasbaar op gecodeerde PDF’s?

Ja, zolang u de PDF ontgrendelt met het juiste wachtwoord.

Zoek tekst en teken rechthoek Zoek tekst met DotNet Regex