Keressen és kapjon szöveget

Ez az oktatóanyag elmagyarázza, hogyan használhatja az Aspose.PDF for .NET fájlt a PDF-dokumentum összes oldalán történő kereséshez és szöveg lekéréséhez. A mellékelt C# forráskód lépésről lépésre mutatja be a folyamatot.

Előfeltételek

Mielőtt folytatná az oktatóanyagot, győződjön meg arról, hogy rendelkezik a következőkkel:

  • C# programozási nyelv alapismerete.
  • Aspose.PDF for .NET könyvtár telepítve. Beszerezheti az Aspose webhelyéről, vagy a NuGet segítségével telepítheti a projektbe.

1. lépés: Állítsa be a projektet

Kezdje azzal, hogy hozzon létre egy új C# projektet a kívánt integrált fejlesztői környezetben (IDE), és adjon hozzá egy hivatkozást az Aspose.PDF for .NET könyvtárhoz.

2. lépés: Importálja a szükséges névtereket

Adja hozzá a következőket direktívák használatával a C# fájl elejéhez a szükséges névterek importálásához:

using Aspose.Pdf;
using Aspose.Pdf.Text;

3. lépés: Töltse be a PDF dokumentumot

Állítsa be a PDF-dokumentumkönyvtár elérési útját, és töltse be a dokumentumot a segítségévelDocument osztály:

string dataDir = "YOUR DOCUMENT DIRECTORY";
Document pdfDocument = new Document(dataDir + "SearchAndGetTextFromAll.pdf");

Ügyeljen arra, hogy cserélje ki"YOUR DOCUMENT DIRECTORY" a dokumentumkönyvtár tényleges elérési útjával.

4. lépés: Szöveg keresése és kibontása

Hozzon létre egyTextFragmentAbsorber objektumot a bemeneti keresési kifejezés összes példányának megtalálásához:

TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");

Cserélje ki"text" a keresni kívánt szöveggel.

5. lépés: Keresés az összes oldalon

Fogadja el az elnyelőt a dokumentum összes oldalán:

pdfDocument.Pages.Accept(textFragmentAbsorber);

6. lépés: szerezze be a kivont szövegrészleteket

Szerezze be a kivont szövegrészleteket aTextFragments tulajdona aTextFragmentAbsorber tárgy:

TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

7. lépés: Lapozzon át a szövegrészleteken

Lapozzon át a kapott szövegrészleteken, és érje el tulajdonságaikat:

foreach (TextFragment textFragment in textFragmentCollection)
{
    Console.WriteLine("Text: {0} ", textFragment.Text);
    Console.WriteLine("Position: {0} ", textFragment.Position);
    Console.WriteLine("XIndent: {0} ", textFragment.Position.XIndent);
    Console.WriteLine("YIndent: {0} ", textFragment.Position.YIndent);
    Console.WriteLine("Font - Name: {0}", textFragment.TextState.Font.FontName);
    Console.WriteLine("Font - IsAccessible: {0} ", textFragment.TextState.Font.IsAccessible);
    Console.WriteLine("Font - IsEmbedded: {0} ", textFragment.TextState.Font.IsEmbedded);
    Console.WriteLine("Font - IsSubset: {0} ", textFragment.TextState.Font.IsSubset);
    Console.WriteLine("Font Size: {0} ", textFragment.TextState.FontSize);
    Console.WriteLine("Foreground Color: {0} ", textFragment.TextState.ForegroundColor);
}

Módosíthatja a kódot a cikluson belül, hogy további műveleteket hajtson végre az egyes szövegrészleteken.

Minta forráskód a kereséshez és a szöveg lekéréséhez az Aspose.PDF for .NET használatával

// A dokumentumok könyvtárának elérési útja.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Nyissa meg a dokumentumot
Document pdfDocument = new Document(dataDir + "SearchAndGetTextFromAll.pdf");
// Hozzon létre TextAbsorber objektumot a bemeneti keresési kifejezés összes példányának megtalálásához
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");
// Fogadja el az összes oldal elnyelőjét
pdfDocument.Pages.Accept(textFragmentAbsorber);
// Szerezze be a kivont szövegrészleteket
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// Hurok át a töredékeken
foreach (TextFragment textFragment in textFragmentCollection)
{
	Console.WriteLine("Text : {0} ", textFragment.Text);
	Console.WriteLine("Position : {0} ", textFragment.Position);
	Console.WriteLine("XIndent : {0} ", textFragment.Position.XIndent);
	Console.WriteLine("YIndent : {0} ", textFragment.Position.YIndent);
	Console.WriteLine("Font - Name : {0}", textFragment.TextState.Font.FontName);
	Console.WriteLine("Font - IsAccessible : {0} ", textFragment.TextState.Font.IsAccessible);
	Console.WriteLine("Font - IsEmbedded : {0} ", textFragment.TextState.Font.IsEmbedded);
	Console.WriteLine("Font - IsSubset : {0} ", textFragment.TextState.Font.IsSubset);
	Console.WriteLine("Font Size : {0} ", textFragment.TextState.FontSize);
	Console.WriteLine("Foreground Color : {0} ", textFragment.TextState.ForegroundColor);
}

Következtetés

Gratulálunk! Sikeresen megtanulta, hogyan lehet szöveget keresni és lekérni egy PDF-dokumentum összes oldalán az Aspose.PDF for .NET segítségével. Ez az oktatóanyag lépésről lépésre nyújt útmutatót a dokumentum betöltésétől a kivont szövegrészletek eléréséig. Mostantól ezt a kódot beépítheti saját C#-projektjeibe a PDF-fájlok szövegtartalmának elemzéséhez és feldolgozásához.

GYIK

K: Mi a “Keresés és szöveg lekérése” oktatóanyag célja?

V: A “Minden szöveg keresése és lekérése” című oktatóanyag bemutatja, hogyan használhatja az Aspose.PDF könyvtárat a .NET-hez a PDF-dokumentum összes oldaláról történő kereséshez és szöveg kibontásához. Az oktatóanyag lépésről lépésre tartalmaz utasításokat, valamint minta C# kódot a szöveges kereséshez és visszakereséshez.

K: Hogyan segít ez az oktatóanyag szöveg kinyerésében PDF-dokumentumokból?

V: Ez az oktatóanyag végigvezeti Önt a PDF-dokumentum összes oldaláról történő szöveg kinyerésének folyamatán. Az Aspose.PDF könyvtárat használja bizonyos szöveges kifejezések megkeresésére és a kapcsolódó információk, például a pozíció, a betűtípus tulajdonságai és a színek lekérésére.

K: Melyek az oktatóanyag követésének előfeltételei?

V: Mielőtt elkezdené ezt az oktatóanyagot, alapvető ismeretekkel kell rendelkeznie a C# programozási nyelvről. Ezenkívül telepítenie kell az Aspose.PDF for .NET könyvtárat. Beszerezheti az Aspose webhelyéről, vagy a NuGet segítségével integrálhatja projektjébe.

K: Hogyan állíthatom be a projektemet, hogy kövesse ezt az oktatóanyagot?

V: A kezdéshez hozzon létre egy új C# projektet az előnyben részesített integrált fejlesztői környezetben (IDE), és adjon hozzá egy hivatkozást az Aspose.PDF for .NET könyvtárhoz. Ez lehetővé teszi a könyvtár funkcióinak elérését a projektben.

K: Hogyan kereshetek meghatározott szöveget egy PDF-dokumentumban?

V: Használhatja aTextFragmentAbsorberosztályban, hogy megtalálja egy adott keresési kifejezés előfordulását a PDF-dokumentumban. Az osztály példányának létrehozásával és a célszöveg megadásával a szöveg minden előfordulását rögzítheti.

K: Kereshetek szöveget a PDF-dokumentum összes oldalán?

V: Igen, az oktatóanyag bemutatja, hogyan kereshet szöveget a PDF-dokumentum összes oldalán. ApdfDocument.Pages.Accept(textFragmentAbsorber) módszert alkalmazzák az abszorber elfogadására az összes oldalon, lehetővé téve, hogy minden oldalon megkeresse a kívánt szöveget.

K: Hogyan férhetek hozzá a kibontott szövegrészletekhez?

V: Miután megkereste a szöveget, a kivonatolt szövegrészleteket a következővel érheti elTextFragments tulajdona aTextFragmentAbsorber tárgy. Ez az ingatlan hozzáférést biztosít a gyűjteményhezTextFragment objektumok, amelyek a kivont szöveget és a kapcsolódó információkat tartalmazzák.

K: Milyen információkat kérhetek le a kivonatolt szövegrészletekből?

V: A kibontott szövegrészletekből különféle részleteket kérhet le, mint például a tényleges szövegtartalom, pozíció (X és Y koordináták), betűtípus-információk (név, méret, szín stb.). Az oktatóanyag mintakódja bemutatja, hogyan lehet elérni és kinyomtatni ezeket a részleteket.

K: Végezhetek-e további műveleteket a kibontott szövegrészletekkel?

V: Abszolút. Miután megvan a kibontott szövegrészlet, módosíthatja a kódot a cikluson belül, hogy egyéni műveleteket hajtson végre minden egyes töredéken. Ez magában foglalhatja a kivonatolt szöveg mentését, a szövegminták elemzését vagy a formázási módosítások alkalmazását.