Estrai tutto il testo nel file PDF
Questo tutorial ti guiderà attraverso il processo di estrazione di tutto il testo nel file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# fornito illustra i passaggi necessari.
Requisiti
Prima di iniziare, assicurati di avere quanto segue:
- Visual Studio o qualsiasi altro compilatore C# installato sul tuo computer.
- Aspose.PDF per la libreria .NET. Puoi scaricarlo dal sito Web ufficiale di Aspose o utilizzare un gestore di pacchetti come NuGet per installarlo.
Passaggio 1: impostare il progetto
- Crea un nuovo progetto C# nel tuo ambiente di sviluppo preferito.
- Aggiungere un riferimento alla libreria Aspose.PDF per .NET.
Passaggio 2: importa gli spazi dei nomi richiesti
Nel file di codice in cui desideri estrarre il testo, aggiungi le seguenti direttive using nella parte superiore del file:
using Aspose.Pdf;
using System.IO;
Passaggio 3: imposta la directory dei documenti
Nel codice, individua la riga che dicestring dataDir = "YOUR DOCUMENT DIRECTORY";
e sostituire"YOUR DOCUMENT DIRECTORY"
con il percorso della directory in cui sono archiviati i tuoi documenti.
Passaggio 4: apri il documento PDF
Apri un documento PDF esistente utilizzando il fileDocument
costruttore e passando il percorso al file PDF di input.
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
Passaggio 5: estrai tutto il testo
Creare unTextAbsorber
oggetto per estrarre il testo dal documento. Quindi, accettare l’assorbitore per tutte le pagine.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
Passaggio 6: ottieni il testo estratto
Accedi al testo estratto dal fileTextAbsorber
oggetto.
string extractedText = textAbsorber.Text;
Passaggio 7: salva il testo estratto
Creare unTextWriter
e apri il file in cui vuoi salvare il testo estratto. Scrivi il testo estratto nel file e chiudi lo stream.
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();
Codice sorgente di esempio per Extract Text All utilizzando Aspose.PDF per .NET
// Il percorso della directory dei documenti.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Apri documento
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Crea un oggetto TextAbsorber per estrarre il testo
TextAbsorber textAbsorber = new TextAbsorber();
// Accettare l'assorbitore per tutte le pagine
pdfDocument.Pages.Accept(textAbsorber);
// Ottieni il testo estratto
string extractedText = textAbsorber.Text;
// Crea uno scrittore e apri il file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Scrivere una riga di testo nel file
tw.WriteLine(extractedText);
// Chiudi il flusso
tw.Close();
Conclusione
Hai estratto con successo tutto il testo da un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato nel file di output specificato.
Domande frequenti
D: Qual è lo scopo di questo tutorial?
R: Questo tutorial funge da guida per aiutarti a estrarre tutto il testo da un file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# allegato fornisce istruzioni dettagliate per eseguire questa attività.
D: Quali spazi dei nomi devo importare?
R: Nel file di codice in cui intendi estrarre il testo, includi le seguenti direttive using all’inizio del file:
using Aspose.Pdf;
using System.IO;
D: Come posso specificare la directory dei documenti?
R: Individua la lineastring dataDir = "YOUR DOCUMENT DIRECTORY";
nel codice e sostituire"YOUR DOCUMENT DIRECTORY"
con il percorso effettivo della directory dei documenti.
D: Come posso aprire un documento PDF esistente?
R: Nel passaggio 4, aprirai un documento PDF esistente utilizzando il fileDocument
costruttore e fornendo il percorso del file PDF di input.
D: Come estraggo tutto il testo dal documento?
R: Il passaggio 5 prevede la creazione di un fileTextAbsorber
oggetto per estrarre il testo dal documento PDF. Quindi accetterai l’assorbitore per tutte le pagine.
D: Come posso accedere al testo estratto?
R: Il passaggio 6 ti guida attraverso l’accesso al testo estratto dal fileTextAbsorber
oggetto.
D: Come posso salvare il testo estratto in un file?
R: Nel passaggio 7 creerai un fileTextWriter
, apri il file in cui desideri salvare il testo estratto, scrivi il testo estratto nel file, quindi chiudi lo stream.
D: Qual è il punto chiave di questo tutorial?
R: Seguendo questo tutorial, hai imparato come estrarre tutto il testo da un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato in un file di output specificato, consentendoti di analizzare e manipolare il contenuto testuale del documento.