Szöveg kibontása PDF fájlból
Ez az oktatóanyag végigvezeti Önt az Aspose.PDF for .NET segítségével az összes szöveg PDF-fájlból való kibontásának folyamatán. A mellékelt C# forráskód bemutatja a szükséges lépéseket.
Követelmények
Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik a következőkkel:
- Visual Studio vagy bármely más C# fordító telepítve a gépedre.
- Aspose.PDF .NET könyvtárhoz. Letöltheti az Aspose hivatalos webhelyéről, vagy használhat csomagkezelőt, például a NuGetet a telepítéséhez.
1. lépés: Állítsa be a projektet
- Hozzon létre egy új C# projektet a kívánt fejlesztői környezetben.
- Adjon hozzá hivatkozást az Aspose.PDF for .NET könyvtárhoz.
2. lépés: Importálja a szükséges névtereket
Abban a kódfájlban, amelybe szöveget szeretne kivonni, adja hozzá a következőket a fájl tetején található direktívák használatával:
using Aspose.Pdf;
using System.IO;
3. lépés: Állítsa be a dokumentumkönyvtárat
A kódban keresse meg azt a sort, amely ezt mondjastring dataDir = "YOUR DOCUMENT DIRECTORY";
és cserélje ki"YOUR DOCUMENT DIRECTORY"
annak a könyvtárnak az elérési útjával, ahol a dokumentumokat tárolják.
4. lépés: Nyissa meg a PDF dokumentumot
Nyisson meg egy meglévő PDF dokumentumot aDocument
konstruktort, és átadja a bemeneti PDF-fájl elérési útját.
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
5. lépés: Az összes szöveg kibontása
Hozzon létre egyTextAbsorber
objektumot, hogy szöveget vonjon ki a dokumentumból. Ezután fogadja el az összes oldal elnyelőjét.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
6. lépés: Szerezze be a kivont szöveget
A kivont szöveg elérése aTextAbsorber
tárgy.
string extractedText = textAbsorber.Text;
7. lépés: Mentse el a kicsomagolt szöveget
Hozzon létre egyTextWriter
és nyissa meg a fájlt, ahová a kicsomagolt szöveget menteni szeretné. Írja be a kicsomagolt szöveget a fájlba, és zárja be az adatfolyamot.
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();
Minta forráskód a Szöveg kibontásához az Aspose.PDF for .NET használatával
// A dokumentumok könyvtárának elérési útja.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Nyissa meg a dokumentumot
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Hozzon létre TextAbsorber objektumot a szöveg kivonásához
TextAbsorber textAbsorber = new TextAbsorber();
// Fogadja el az összes oldal elnyelőjét
pdfDocument.Pages.Accept(textAbsorber);
// Szerezd meg a kivont szöveget
string extractedText = textAbsorber.Text;
// Hozzon létre egy írót, és nyissa meg a fájlt
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Írjon egy sort a fájlba
tw.WriteLine(extractedText);
// Zárd be a patakot
tw.Close();
Következtetés
Sikeresen kibontotta az összes szöveget egy PDF-dokumentumból az Aspose.PDF for .NET használatával. A kivont szöveget a rendszer a megadott kimeneti fájlba mentette.
GYIK
K: Mi a célja ennek az oktatóanyagnak?
V: Ez az oktatóanyag útmutatóként szolgál az Aspose.PDF for .NET segítségével az összes szöveg PDF-fájlból való kibontásához. A mellékelt C# forráskód lépésről lépésre ad útmutatást ennek a feladatnak az eléréséhez.
K: Milyen névtereket kell importálnom?
V: Abba a kódfájlba, amelybe szöveget kíván kivonni, a fájl elejére írja be a következő direktívákat:
using Aspose.Pdf;
using System.IO;
K: Hogyan adhatom meg a dokumentumkönyvtárat?
V: Keresse meg a vonalatstring dataDir = "YOUR DOCUMENT DIRECTORY";
a kódban és cserélje ki"YOUR DOCUMENT DIRECTORY"
a dokumentumkönyvtár tényleges elérési útjával.
K: Hogyan nyithatok meg egy meglévő PDF-dokumentumot?
V: A 4. lépésben megnyit egy meglévő PDF-dokumentumot aDocument
konstruktort, és megadja a bemeneti PDF-fájl elérési útját.
K: Hogyan vonhatok ki minden szöveget a dokumentumból?
V: Az 5. lépés az aTextAbsorber
objektum a szöveg kinyeréséhez a PDF dokumentumból. Ezután elfogadja az összes oldal elnyelőjét.
K: Hogyan férhetek hozzá a kivonatolt szöveghez?
V: A 6. lépés végigvezeti Önt a kivonatolt szöveg elérésénTextAbsorber
tárgy.
K: Hogyan menthetem el a kicsomagolt szöveget fájlba?
V: A 7. lépésben létrehoz egyTextWriter
, nyissa meg azt a fájlt, ahová a kicsomagolt szöveget menteni szeretné, írja be a kibontott szöveget a fájlba, majd zárja be az adatfolyamot.
K: Mi a legfontosabb kivonat ebből az oktatóanyagból?
V: Az oktatóanyag követésével megtanulta, hogyan bontsa ki az összes szöveget egy PDF-dokumentumból az Aspose.PDF for .NET használatával. A kivont szöveget a rendszer egy megadott kimeneti fájlba menti, amely lehetővé teszi a dokumentum szöveges tartalmának elemzését és kezelését.