Bekezdések kibontása PDF fájlba

Ez az oktatóanyag végigvezeti Önt a bekezdések PDF-fájlba történő kibontásán az Aspose.PDF for .NET használatával. A mellékelt C# forráskód bemutatja a szükséges lépéseket.

Követelmények

Mielőtt elkezdené, győződjön meg arról, hogy rendelkezik a következőkkel:

  • Visual Studio vagy bármely más C# fordító telepítve a gépedre.
  • Aspose.PDF .NET könyvtárhoz. Letöltheti az Aspose hivatalos webhelyéről, vagy használhat csomagkezelőt, például a NuGetet a telepítéséhez.

1. lépés: Állítsa be a projektet

  1. Hozzon létre egy új C# projektet a kívánt fejlesztői környezetben.
  2. Adjon hozzá hivatkozást az Aspose.PDF for .NET könyvtárhoz.

2. lépés: Importálja a szükséges névtereket

Abban a kódfájlban, amelybe a bekezdéseket ki szeretné bontani, adja hozzá a következőket a fájl tetején található direktívák használatával:

using Aspose.Pdf;
using System;
using System.Text;

3. lépés: Állítsa be a dokumentumkönyvtárat

A kódban keresse meg azt a sort, amely ezt mondjastring dataDir = "YOUR DOCUMENT DIRECTORY"; és cserélje ki"YOUR DOCUMENT DIRECTORY" annak a könyvtárnak az elérési útjával, ahol a dokumentumokat tárolják.

4. lépés: Nyissa meg a PDF dokumentumot

Nyisson meg egy meglévő PDF dokumentumot aDocumentkonstruktort, és átadja a bemeneti PDF-fájl elérési útját.

Document doc = new Document(dataDir + "input.pdf");

5. lépés: Bontsa ki a bekezdéseket

Példányosítsa aParagraphAbsorber osztályt, és használja aztVisit módszer a bekezdések kinyerésére a dokumentumból.

ParagraphAbsorber absorb = new ParagraphAbsorber();
absorb.Visit(doc);

6. lépés: Ismételje meg a bekezdéseket

Lapozzon át a kibontott bekezdéseken a szövegtartalom eléréséhez. Használjon beágyazott hurkokat az egyes bekezdéseken belüli szakaszok és sorok áthaladásához.

foreach(PageMarkup markup in absorber.PageMarkups)
{
     int i = 1;
     foreach(MarkupSection section in markup.Sections)
     {
         int j = 1;
         foreach(MarkupParagraph paragraph in section.Paragraphs)
         {
             StringBuilder paragraphText = new StringBuilder();
             foreach(List<TextFragment> line in paragraph.Lines)
             {
                 foreach(TextFragment fragment in line)
                 {
                     paragraphText.Append(fragment.Text);
                 }
                 paragraphText. Append("\r\n");
             }
             paragraphText. Append("\r\n");
             Console.WriteLine("Paragraph {0} of section {1} on page {2}:", j, i, markup.Number);
             Console.WriteLine(paragraphText.ToString());
             j++;
         }
         i++;
     }
}

Minta forráskód a bekezdések kibontásához az Aspose.PDF for .NET használatával

// A dokumentumok könyvtárának elérési útja.
string dataDir = "YOUR DOCUMENT DIRECTORY";
//Nyisson meg egy meglévő PDF-fájlt
Document doc = new Document(dataDir + "input.pdf");
// Példányosítsa a bekezdéselnyelőt
ParagraphAbsorber absorber = new ParagraphAbsorber();
absorber.Visit(doc);
foreach (PageMarkup markup in absorber.PageMarkups)
{
	int i = 1;
	foreach (MarkupSection section in markup.Sections)
	{
		int j = 1;
		foreach (MarkupParagraph paragraph in section.Paragraphs)
		{
			StringBuilder paragraphText = new StringBuilder();
			foreach (List<TextFragment> line in paragraph.Lines)
			{
				foreach (TextFragment fragment in line)
				{
					paragraphText.Append(fragment.Text);
				}
				paragraphText.Append("\r\n");
			}
			paragraphText.Append("\r\n");
			Console.WriteLine("Paragraph {0} of section {1} on page {2}:", j, i, markup.Number);
			Console.WriteLine(paragraphText.ToString());
			j++;
		}
		i++;
	}
}

Következtetés

Sikeresen kibontotta a bekezdéseket egy PDF-dokumentumból az Aspose.PDF for .NET segítségével. A kibontott bekezdések megjelennek a konzol ablakában.

GYIK

K: Mi a célja ennek az oktatóanyagnak?

V: Ennek az oktatóanyagnak az a célja, hogy végigvezeti Önt a bekezdések PDF-fájlból való kibontásának folyamatán az Aspose.PDF for .NET használatával. A mellékelt C# forráskód gyakorlati lépéseket ad ennek a feladatnak az eléréséhez.

K: Milyen névtereket kell importálnom?

V: Abba a kódfájlba, ahonnan a bekezdéseket ki szeretné bontani, a fájl elején található direktívák használatával adja meg a következőket:

using Aspose.Pdf;
using System;
using System.Text;

K: Hogyan adhatom meg a dokumentumkönyvtárat?

V: Keresse meg a vonalatstring dataDir = "YOUR DOCUMENT DIRECTORY"; a kódban és cserélje ki"YOUR DOCUMENT DIRECTORY" a dokumentumkönyvtár tényleges elérési útjával.

K: Hogyan nyithatok meg egy meglévő PDF-dokumentumot?

V: A 4. lépésben megnyit egy meglévő PDF-dokumentumot aDocument konstruktort, és megadja a bemeneti PDF-fájl elérési útját.

K: Hogyan vonhatok ki bekezdéseket a dokumentumból?

V: Az 5. lépésben létrehoz egy példányt aParagraphAbsorber osztályt és annak használatátVisit módszer a bekezdések kinyerésére a PDF-dokumentumból.

K: Hogyan iterálhatom végig a kivonatolt bekezdéseket?

V: A 6. lépés végigvezeti Önt a kibontott bekezdéseken keresztül. A beágyazott hurkok az egyes bekezdéseken belüli szakaszok és sorok áthaladására szolgálnak, végül elérik és megjelenítik a szöveges tartalmat.

K: Mi a legfontosabb kivonat ebből az oktatóanyagból?

V: Az oktatóanyag követésével megtanulta, hogyan bonthat ki bekezdéseket egy PDF-dokumentumból az Aspose.PDF for .NET használatával. A kivonatolt bekezdések a konzolablakban jelennek meg, így értékes betekintést nyerhet a dokumentum tartalmi szerkezetébe.