Reguláris kifejezés keresése PDF fájlban
Ez az oktatóanyag elmagyarázza, hogyan használhatja az Aspose.PDF for .NET fájlt a PDF-fájlban található reguláris kifejezésnek megfelelő szöveg keresésére és lekérésére. A mellékelt C# forráskód lépésről lépésre mutatja be a folyamatot.
Előfeltételek
Mielőtt folytatná az oktatóanyagot, győződjön meg arról, hogy rendelkezik a következőkkel:
- C# programozási nyelv alapismerete.
- Aspose.PDF for .NET könyvtár telepítve. Beszerezheti az Aspose webhelyéről, vagy a NuGet segítségével telepítheti a projektbe.
1. lépés: Állítsa be a projektet
Kezdje azzal, hogy hozzon létre egy új C# projektet a kívánt integrált fejlesztői környezetben (IDE), és adjon hozzá egy hivatkozást az Aspose.PDF for .NET könyvtárhoz.
2. lépés: Importálja a szükséges névtereket
Adja hozzá a következőket direktívák használatával a C# fájl elejéhez a szükséges névterek importálásához:
using Aspose.Pdf;
using Aspose.Pdf.Text;
3. lépés: Töltse be a PDF dokumentumot
Állítsa be a PDF-dokumentumkönyvtár elérési útját, és töltse be a dokumentumot a segítségévelDocument
osztály:
string dataDir = "YOUR DOCUMENT DIRECTORY";
Document pdfDocument = new Document(dataDir + "SearchRegularExpressionAll.pdf");
Ügyeljen arra, hogy cserélje ki"YOUR DOCUMENT DIRECTORY"
a dokumentumkönyvtár tényleges elérési útjával.
4. lépés: Keresés reguláris kifejezéssel
Hozzon létre egyTextFragmentAbsorber
objektumot, és állítsa be a reguláris kifejezés mintáját, hogy megtalálja a mintának megfelelő összes kifejezést:
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("\\d{4}-\\d{4}"); // Mint 1999-2000
Cserélje ki"\\d{4}-\\d{4}"
a kívánt reguláris kifejezésmintával.
5. lépés: Állítsa be a szöveges keresési beállításokat
Hozzon létre egyTextSearchOptions
objektumot, és állítsa be aTextSearchOptions
tulajdona aTextFragmentAbsorber
objektum a reguláris kifejezés használatának engedélyezéséhez:
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.TextSearchOptions = textSearchOptions;
6. lépés: Keresés az összes oldalon
Fogadja el az elnyelőt a dokumentum összes oldalán:
pdfDocument.Pages.Accept(textFragmentAbsorber);
7. lépés: Töltse le a kivont szövegrészleteket
Szerezze be a kivont szövegrészleteket aTextFragments
tulajdona aTextFragmentAbsorber
tárgy:
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
8. lépés: Lapozzon át a szövegrészleteken
Lapozzon át a letöltött szövegrészleteken, és érje el tulajdonságaikat:
foreach (TextFragment textFragment in textFragmentCollection)
{
Console.WriteLine("Text: {0} ", textFragment.Text);
Console.WriteLine("Position: {0} ", textFragment.Position);
Console.WriteLine("XIndent: {0} ", textFragment.Position.XIndent);
Console.WriteLine("YIndent: {0} ", textFragment.Position.YIndent);
Console.WriteLine("Font - Name: {0}", textFragment.TextState.Font.FontName);
Console.WriteLine("Font - IsAccessible: {0} ", textFragment.TextState.Font.IsAccessible);
Console.WriteLine("Font - IsEmbedded: {0} ", textFragment.TextState.Font.IsEmbedded);
Console.WriteLine("Font - IsSubset: {0} ", textFragment.TextState.Font.IsSubset);
Console.WriteLine("Font Size: {0} ", textFragment.TextState.FontSize);
Console.WriteLine("Foreground Color: {0} ", textFragment.TextState.ForegroundColor);
}
Módosíthatja a kódot a cikluson belül, hogy további műveleteket hajtson végre az egyes szövegrészleteken.
Minta forráskód a Reguláris kifejezés kereséséhez az Aspose.PDF for .NET használatával
// A dokumentumok könyvtárának elérési útja.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Nyissa meg a dokumentumot
Document pdfDocument = new Document(dataDir + "SearchRegularExpressionAll.pdf");
// Hozzon létre TextAbsorber objektumot a reguláris kifejezésnek megfelelő kifejezések megtalálásához
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("\\d{4}-\\d{4}"); // Mint 1999-2000
// Állítsa be a szöveges keresési beállítást a reguláris kifejezés használatának megadásához
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.TextSearchOptions = textSearchOptions;
// Fogadja el az összes oldal elnyelőjét
pdfDocument.Pages.Accept(textFragmentAbsorber);
// Szerezze be a kivont szövegrészleteket
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// Hurok át a töredékeken
foreach (TextFragment textFragment in textFragmentCollection)
{
Console.WriteLine("Text : {0} ", textFragment.Text);
Console.WriteLine("Position : {0} ", textFragment.Position);
Console.WriteLine("XIndent : {0} ", textFragment.Position.XIndent);
Console.WriteLine("YIndent : {0} ", textFragment.Position.YIndent);
Console.WriteLine("Font - Name : {0}", textFragment.TextState.Font.FontName);
Console.WriteLine("Font - IsAccessible : {0} ", textFragment.TextState.Font.IsAccessible);
Console.WriteLine("Font - IsEmbedded : {0} ", textFragment.TextState.Font.IsEmbedded);
Console.WriteLine("Font - IsSubset : {0} ", textFragment.TextState.Font.IsSubset);
Console.WriteLine("Font Size : {0} ", textFragment.TextState.FontSize);
Console.WriteLine("Foreground Color : {0} ", textFragment.TextState.ForegroundColor);
}
Következtetés
Gratulálunk! Sikeresen megtanulta, hogyan kereshet és kérhet le olyan szöveget, amely megfelel a reguláris kifejezéseknek egy PDF-dokumentumban az Aspose.PDF for .NET segítségével. Ez az oktatóanyag lépésről lépésre nyújt útmutatót a dokumentum betöltésétől a kivont szövegrészletek eléréséig. Most már beépítheti ezt a kódot saját C#-projektjeibe, hogy speciális szöveges kereséseket végezhessen PDF-fájlokban.
GYIK
K: Mi a célja a „Reguláris kifejezés keresése PDF-fájlban” című oktatóanyagnak?
V: A „Reguláris kifejezés keresése PDF-fájlban” című oktatóanyag célja, hogy bemutassa, hogyan használható az Aspose.PDF könyvtár .NET-hez a PDF-fájlban megadott reguláris kifejezés-mintának megfelelő szöveg keresésére és kibontására. Az oktatóanyag átfogó útmutatást és minta C# kódot kínál a folyamat bemutatásához.
K: Hogyan segít ez az oktatóanyag a szöveg reguláris kifejezésekkel történő keresésében egy PDF-dokumentumban?
V: Ez az oktatóanyag lépésről lépésre bemutatja az Aspose.PDF könyvtár használatát, amellyel szöveges kereséseket végezhet egy PDF-dokumentumban reguláris kifejezésminta alapján. Részletesen leírja, hogyan kell beállítani a projektet, betölteni a PDF-dokumentumot, meghatározni egy reguláris kifejezés-mintát, és lekérni a megfelelő szövegrészleteket.
K: Melyek az oktatóanyag követésének előfeltételei?
V: Mielőtt elkezdené ezt az oktatóanyagot, alapvető ismeretekkel kell rendelkeznie a C# programozási nyelvről. Ezenkívül telepítenie kell az Aspose.PDF for .NET könyvtárat. Beszerezheti az Aspose webhelyéről, vagy a NuGet segítségével integrálhatja projektjébe.
K: Hogyan állíthatom be a projektemet, hogy kövesse ezt az oktatóanyagot?
V: Kezdésként hozzon létre egy új C# projektet a kívánt integrált fejlesztői környezetben (IDE), és adjon hozzá egy hivatkozást az Aspose.PDF for .NET könyvtárhoz. Ez lehetővé teszi a könyvtár képességeinek kiaknázását a projekten belül.
K: Használhatok reguláris kifejezéseket szöveg keresésére egy PDF-dokumentumban?
V: Igen, ez az oktatóanyag bemutatja, hogyan lehet reguláris kifejezésekkel szöveget keresni és kivonni egy PDF-dokumentumból. Ez magában foglalja aTextFragmentAbsorber
osztályt, és adjon meg egy reguláris kifejezésmintát, hogy megtalálja a megadott mintának megfelelő kifejezéseket.
K: Hogyan határozhatom meg a reguláris kifejezés mintáját a szöveges kereséshez?
V: Ha reguláris kifejezésmintát szeretne megadni a szöveges kereséshez, hozzon létre aTextFragmentAbsorber
objektumot, és állítsa be a mintáját a segítségévelText
paraméter. Cserélje ki az alapértelmezett mintát"\\d{4}-\\d{4}"
az oktatóprogram kódjában a kívánt reguláris kifejezésmintával.
K: Hogyan engedélyezhetem a reguláris kifejezés használatát a szöveges kereséshez?
V: A reguláris kifejezések használatát az a. létrehozásával engedélyezhetiTextSearchOptions
objektumot, és állítsa be az értékéttrue
. Rendelje hozzá ezt az objektumot aTextSearchOptions
tulajdona aTextFragmentAbsorber
példa. Ez biztosítja, hogy a rendszer a reguláris kifejezésmintát alkalmazza a szöveges keresés során.
K: Lekérhetek olyan szövegrészleteket, amelyek megfelelnek a reguláris kifejezés mintájának?
V: Abszolút. Miután alkalmazta a reguláris kifejezésre vonatkozó keresést a PDF-dokumentumban, a kivonatolt szövegrészleteket a következővel kérheti leTextFragments
tulajdona aTextFragmentAbsorber
tárgy. Ezek a szövegtöredékek a megadott reguláris kifejezésmintának megfelelő szövegszegmenseket tartalmazzák.
K: Mihez férhetek hozzá a visszakeresett szövegrészletekből?
V: A visszakeresett szövegrészletekből különféle tulajdonságokat érhet el, mint például az egyező szövegtartalom, pozíció (X és Y koordináták), betűtípus-információk (név, méret, szín) és egyebek. Az oktatóanyag ciklusában található mintakód bemutatja, hogyan lehet elérni és megjeleníteni ezeket a tulajdonságokat.
K: Hogyan szabhatom testre a műveleteket a kivont szövegrészleteken?
V: A kicsomagolt szövegrészletek birtokában testreszabhatja a kódot a cikluson belül, hogy további műveleteket hajtson végre minden egyes szövegrészleten. Ez magában foglalhatja a kivonatolt szöveg mentését, a minták elemzését vagy a formázási módosítások végrehajtását az Ön igényei alapján.