Ekstrak Teks yang Disorot Dalam File PDF
Untuk mengekstrak teks yang disorot dalam file PDF, Anda dapat menggunakan Aspose.PDF untuk .NET API. API ini menyediakan cara sederhana untuk mengambil semua teks yang telah disorot dalam dokumen.
Langkah 1: Muat dokumen PDF
Langkah pertama dalam mengekstrak teks yang disorot dalam file PDF adalah memuat dokumen menggunakan Aspose.PDF untuk .NET API. Anda dapat melakukan ini dengan membuat instance baru dariDocument
kelas dan meneruskan jalur ke dokumen PDF sebagai parameter.
// Jalur ke direktori dokumen.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
Langkah 2: Ulangi semua anotasi
Langkah selanjutnya adalah mengulang semua anotasi dalam dokumen PDF. Anda dapat melakukan ini menggunakan aforeach
lingkaran, seperti ini:
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
// Kode ada di sini
}
Langkah 3: Filter anotasi markup teks
Di dalamforeach
loop, Anda perlu memfilter semua anotasi yang bukan anotasi markup teks. Anda dapat melakukan ini dengan memeriksa apakah anotasi tersebut merupakan turunan dariTextMarkupAnnotation
kelas.
if (annotation is TextMarkupAnnotation)
{
// Kode ada di sini
}
Langkah 4: Ambil fragmen teks yang disorot
Setelah Anda memfilter semua anotasi markup teks, Anda dapat mengambil fragmen teks yang disorot untuk setiap anotasi. Anda dapat melakukannya dengan meneleponGetMarkedTextFragments()
metode padaTextMarkupAnnotation
obyek.
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
Langkah 5: Tampilkan teks yang disorot
Terakhir, Anda dapat menampilkan teks yang disorot kepada pengguna. Anda dapat melakukan ini dengan mengulang masing-masingTextFragment
objek diTextFragmentCollection
dan meneleponText
Properti.
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
Contoh kode sumber untuk Ekstrak Teks yang Disorot menggunakan Aspose.PDF untuk .NET
// Jalur ke direktori dokumen.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
if (annotation is TextMarkupAnnotation)
{
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
}
}
Kesimpulan
Dalam tutorial ini, kita menjelajahi cara mengekstrak teks yang disorot dari dokumen PDF menggunakan Aspose.PDF untuk .NET. Dengan mengikuti panduan langkah demi langkah dan menggunakan kode sumber C# yang disediakan, pengembang dapat dengan mudah mengekstrak dan mengelola teks yang disorot dalam dokumen PDF mereka.
FAQ untuk mengekstrak teks yang disorot dalam file PDF
T: Apa yang dimaksud dengan anotasi markup teks dalam dokumen PDF?
J: Anotasi markup teks adalah anotasi yang menyorot atau menandai teks tertentu dalam dokumen PDF. Contoh anotasi markup teks mencakup sorotan, garis bawah, dan coretan.
T: Bisakah saya mengekstrak teks dari jenis anotasi lain menggunakan Aspose.PDF untuk .NET?
J: Ya, Aspose.PDF untuk .NET menyediakan berbagai metode untuk mengekstrak teks dari berbagai jenis anotasi, termasuk anotasi markup teks, anotasi teks bebas, dan banyak lagi.
T: Apakah Aspose.PDF untuk .NET mendukung ekstraksi teks dari file PDF yang dilindungi kata sandi?
J: Ya, Aspose.PDF untuk .NET mendukung ekstraksi teks dari file PDF yang dilindungi kata sandi. Anda harus memberikan kata sandi yang benar saat memuat dokumen PDF menggunakanDocument
kelas.
T: Dapatkah saya memfilter teks yang disorot berdasarkan kriteria lain, seperti warna atau penulis?
J: Ya, Anda dapat memfilter teks yang disorot berdasarkan kriteria lain, seperti warna, penulis, atau tanggal pembuatan. Aspose.PDF untuk .NET menyediakan metode untuk mengakses dan memfilter anotasi berdasarkan propertinya.
T: Apakah mungkin untuk menyimpan teks yang diekstraksi dan disorot ke file terpisah?
J: Ya, Anda dapat menyimpan teks yang disorot yang diekstrak ke file terpisah atau menyimpannya dalam struktur data untuk diproses atau dianalisis lebih lanjut.