Szöveg kibontása PDF fájlból

Bevezetés

Ebben a digitális korszakban a PDF dokumentumok kezelése általános feladattá vált. Legyen szó dokumentumfeldolgozó alkalmazást építeni szándékozó fejlesztőről vagy fontos adatok kinyerésére vágyó üzleti szakemberről, ha tudja, hogyan lehet hatékonyan kinyerni szöveget PDF-fájlokból, rengeteg időt és energiát takaríthat meg. Ebben a cikkben az Aspose.PDF for .NET könyvtár használatát ismertetjük – egy hatékony eszköz, amellyel gyorsan és egyszerűen húzhat szöveget PDF-fájlokból.

Előfeltételek

Mielőtt belevágnánk a szöveg PDF-fájlokból való kivonatolásába, néhány alapvető követelménynek meg kell felelnie:

  1. .NET-keretrendszer: Győződjön meg arról, hogy a .NET-keretrendszer telepítve van a fejlesztőgépen. Az Aspose.PDF zökkenőmentesen működik a .NET-tel, ezért a legújabb verzió előnyt jelent.
  2. Aspose.PDF Library: A PDF-kezelések kezeléséhez szüksége lesz az Aspose.PDF for .NET könyvtárra. Megtehetitöltse le itt.
  3. Fejlesztési környezet: Erősen ajánlott egy olyan IDE, mint a Visual Studio. Felhasználóbarát felületet biztosít a kód írásához, felépítéséhez és hibakereséséhez.
  4. A C# alapismeretei: A C# programozási nyelv ismerete segít jobban megérteni azokat a kódrészleteket, amelyeket hamarosan megvizsgálunk.

Most, hogy az előfeltételeinket rendeztük, importáljuk a szükséges csomagokat!

Csomagok importálása

A kibontási folyamatunk megkezdéséhez először importálnia kell a szükséges névtereket a C#-projektbe. A következőképpen teheti meg:

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

Ezek a névterek hozzáférést biztosítanak a PDF-műveletekhez szükséges osztályokhoz és metódusokhoz.

Bontsuk le az extrakciós folyamatot könnyen követhető lépésekre. Az útmutató végére bármilyen PDF-fájlból zökkenőmentesen kinyerhet szöveget.

1. lépés: Állítsa be a dokumentumkönyvtárat

Az első dolog, amit meg kell tennie, hogy adja meg a könyvtárat, ahol a PDF-fájl található. Ez elengedhetetlen a kezelni kívánt fájl megtalálásához.

Kódminta:

// A dokumentumok könyvtárának elérési útja.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Ebben a részletben csak cserélje ki"YOUR DOCUMENT DIRECTORY" a PDF-fájl tényleges elérési útjával. Például, ha a fájl be vanC:\Documents , állítaná bedataDir arra az útra.

2. lépés: Nyissa meg a PDF-dokumentumot

Miután beállította a könyvtárat, meg kell nyitnia azt a PDF-dokumentumot, amelyből szöveget szeretne kivonni. Ez aDocument osztályt az Aspose.PDF névtérből.

Kódminta:

// Nyissa meg a dokumentumot
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Itt győződjön meg arról, hogy a fájlnévExtractTextAll.pdf helyes. Ezzel a fájllal fog dolgozni a szöveg kibontásához.

3. lépés: Hozzon létre egy szövegelnyelő objektumot

A következő lépés az aTextAbsorber objektum. Ez az a varázseszköz, amely segít a PDF-ben található összes szöveg felszívódásában.

Kódminta:

// Hozzon létre TextAbsorber objektumot a szöveg kivonásához
TextAbsorber textAbsorber = new TextAbsorber();

Inicializálásával aTextAbsorber, akkor felkészül arra, hogy az összes szöveges tartalmat kivonja a PDF oldalairól.

4. lépés: Fogadja el az Absorber for All Pages

Most, hogy készen van a szövegelnyelő, működnie kell a PDF-dokumentum összes oldalán. Ez biztosítja, hogy minden egyes oldal szövege rögzítésre kerüljön.

Kódminta:

// Fogadja el az összes oldal elnyelőjét
pdfDocument.Pages.Accept(textAbsorber);

Ezzel a lépéssel alapvetően azt mondod: „Hé, szövegelnyelő, gyűjtsd össze az összes szöveget a dokumentum minden oldaláról!”

5. lépés: Töltse le a kivont szöveget

Ha a szöveg felszívódott, ideje kihúzni. A kivont szöveget egy egyszerű tulajdonság segítségével érheti el.

Kódminta:

// Szerezd meg a kivont szöveget
string extractedText = textAbsorber.Text;

Most a változóextractedText tartalmazza a PDF-ből összegyűjtött összes szöveget. Milyen menő ez?

6. lépés: Írja a kivont szöveget egy fájlba

Végül valószínűleg a kibontott szöveget egy új szövegfájlba szeretné menteni, hogy később könnyen hozzáférhessen. Íme, hogyan kell ezt megtenni.

Kódminta:

// Hozzon létre egy írót, és nyissa meg a fájlt
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Írjon egy sort a fájlba
tw.WriteLine(extractedText);
// Zárd be a patakot
tw.Close();

Ez a kód megnyit egy új fájltextracted-text.txtaz összes kibontott tartalmat beleírja, majd bezárja a fájlt. Tehát most, amikor látni szeretné a kivont szöveget, csak nézzen be a dokumentumok könyvtárába!

Következtetés

Megvan! Néhány egyszerű lépéssel bármilyen PDF-fájlból kivonhat szöveget az Aspose.PDF for .NET segítségével. Függetlenül attól, hogy egy alkalmazást készít dokumentumok elemzéséhez, vagy csak néhány jegyzetet szeretne megragadni egy PDF-ből, az Aspose.PDF robusztus, könnyen használható API-t biztosít, amely megkönnyíti az életét. Ne felejtse el megnézni adokumentáció további funkciók és képességek, amelyeket ez a nagy teljesítményű könyvtár kínál.

GYIK

Használhatom ingyenesen az Aspose.PDF-et .NET-hez?

Igen, az Aspose ingyenes próbaverziót kínál. Letölthetiitt.

Mi a teendő, ha a PDF-fájlom képeket és grafikákat tartalmaz?

Az Aspose.PDF a szövegkivonásra összpontosít. Ha a PDF-fájlja képeket is tartalmaz, előfordulhat, hogy más megközelítésre lesz szüksége a kezelésükhöz.

Van ideiglenes engedély?

Teljesen! Kaphat ideiglenes engedélytitt.

Hol kaphatok támogatást az Aspose.PDF-hez?

Támogatást és közösségi beszélgetéseket találhat az oldalonAspose fórum.

Milyen formátumokba menthetem a kicsomagolt szöveget?

A szöveget különféle formátumokba mentheti, mint pl.txt, .docx, vagy akár közvetlenül egy adatbázisba.