Estrai il testo evidenziato nel file PDF
Per estrarre il testo evidenziato nel file PDF, è possibile utilizzare Aspose.PDF per l’API .NET. Questa API fornisce un modo semplice per recuperare tutto il testo evidenziato in un documento.
Passaggio 1: carica il documento PDF
Il primo passo per estrarre il testo evidenziato nel file PDF è caricare il documento utilizzando l’API Aspose.PDF per .NET. Puoi farlo creando una nuova istanza del fileDocument
class e passando il percorso del documento PDF come parametro.
// Il percorso della directory dei documenti.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
Passaggio 2: scorrere tutte le annotazioni
Il passaggio successivo consiste nel scorrere tutte le annotazioni nel documento PDF. Puoi farlo usando aforeach
ciclo, in questo modo:
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
// Il codice va qui
}
Passaggio 3: filtra le annotazioni di markup del testo
Dentro ilforeach
loop, dovrai filtrare tutte le annotazioni che non sono annotazioni di markup di testo. Puoi farlo controllando se l’annotazione è un’istanza diTextMarkupAnnotation
classe.
if (annotation is TextMarkupAnnotation)
{
// Il codice va qui
}
Passaggio 4: recupera i frammenti di testo evidenziati
Dopo aver filtrato tutte le annotazioni di markup di testo, puoi recuperare i frammenti di testo evidenziati per ciascuna annotazione. Puoi farlo chiamando ilGetMarkedTextFragments()
metodo sulTextMarkupAnnotation
oggetto.
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
Passaggio 5: visualizza il testo evidenziato
Infine, puoi visualizzare il testo evidenziato all’utente. Puoi farlo eseguendo il looping su ciascuno di essiTextFragment
oggetto inTextFragmentCollection
e chiamando ilText
proprietà.
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
Codice sorgente di esempio per estrarre il testo evidenziato utilizzando Aspose.PDF per .NET
// Il percorso della directory dei documenti.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
if (annotation is TextMarkupAnnotation)
{
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
}
}
Conclusione
In questo tutorial, abbiamo esplorato come estrarre il testo evidenziato da un documento PDF utilizzando Aspose.PDF per .NET. Seguendo la guida passo passo e utilizzando il codice sorgente C# fornito, gli sviluppatori possono estrarre e gestire facilmente il testo evidenziato nei propri documenti PDF.
Domande frequenti sull’estrazione del testo evidenziato nel file PDF
D: Cosa sono le annotazioni di markup di testo in un documento PDF?
R: Le annotazioni di markup del testo sono annotazioni che evidenziano o contrassegnano un testo specifico in un documento PDF. Esempi di annotazioni di markup di testo includono evidenziazioni, sottolineature e barre barrate.
D: Posso estrarre testo da altri tipi di annotazioni utilizzando Aspose.PDF per .NET?
R: Sì, Aspose.PDF per .NET fornisce vari metodi per estrarre testo da diversi tipi di annotazioni, incluse annotazioni di markup di testo, annotazioni di testo libero e altro.
D: Aspose.PDF per .NET supporta l’estrazione di testo da file PDF protetti da password?
R: Sì, Aspose.PDF per .NET supporta l’estrazione di testo da file PDF protetti da password. È necessario fornire la password corretta quando si carica il documento PDF utilizzando il fileDocument
classe.
D: Posso filtrare il testo evidenziato in base ad altri criteri, come colore o autore?
R: Sì, puoi filtrare il testo evidenziato in base ad altri criteri, come colore, autore o data di creazione. Aspose.PDF per .NET fornisce metodi per accedere e filtrare le annotazioni in base alle loro proprietà.
D: È possibile salvare il testo evidenziato estratto in un file separato?
R: Sì, puoi salvare il testo evidenziato estratto in un file separato o memorizzarlo in una struttura dati per ulteriore elaborazione o analisi.