Estrai tutto il testo nel file PDF

Questo tutorial ti guiderà attraverso il processo di estrazione di tutto il testo nel file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# fornito illustra i passaggi necessari.

Requisiti

Prima di iniziare, assicurati di avere quanto segue:

  • Visual Studio o qualsiasi altro compilatore C# installato sul tuo computer.
  • Aspose.PDF per la libreria .NET. Puoi scaricarlo dal sito Web ufficiale di Aspose o utilizzare un gestore di pacchetti come NuGet per installarlo.

Passaggio 1: impostare il progetto

  1. Crea un nuovo progetto C# nel tuo ambiente di sviluppo preferito.
  2. Aggiungere un riferimento alla libreria Aspose.PDF per .NET.

Passaggio 2: importa gli spazi dei nomi richiesti

Nel file di codice in cui desideri estrarre il testo, aggiungi le seguenti direttive using nella parte superiore del file:

using Aspose.Pdf;
using System.IO;

Passaggio 3: imposta la directory dei documenti

Nel codice, individua la riga che dicestring dataDir = "YOUR DOCUMENT DIRECTORY"; e sostituire"YOUR DOCUMENT DIRECTORY" con il percorso della directory in cui sono archiviati i tuoi documenti.

Passaggio 4: apri il documento PDF

Apri un documento PDF esistente utilizzando il fileDocumentcostruttore e passando il percorso al file PDF di input.

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Passaggio 5: estrai tutto il testo

Creare unTextAbsorberoggetto per estrarre il testo dal documento. Quindi, accettare l’assorbitore per tutte le pagine.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);

Passaggio 6: ottieni il testo estratto

Accedi al testo estratto dal fileTextAbsorber oggetto.

string extractedText = textAbsorber.Text;

Passaggio 7: salva il testo estratto

Creare unTextWriter e apri il file in cui vuoi salvare il testo estratto. Scrivi il testo estratto nel file e chiudi lo stream.

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

Codice sorgente di esempio per Extract Text All utilizzando Aspose.PDF per .NET

// Il percorso della directory dei documenti.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Apri documento
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Crea un oggetto TextAbsorber per estrarre il testo
TextAbsorber textAbsorber = new TextAbsorber();
// Accettare l'assorbitore per tutte le pagine
pdfDocument.Pages.Accept(textAbsorber);
// Ottieni il testo estratto
string extractedText = textAbsorber.Text;
// Crea uno scrittore e apri il file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Scrivere una riga di testo nel file
tw.WriteLine(extractedText);
// Chiudi il flusso
tw.Close();

Conclusione

Hai estratto con successo tutto il testo da un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato nel file di output specificato.

Domande frequenti

D: Qual è lo scopo di questo tutorial?

R: Questo tutorial funge da guida per aiutarti a estrarre tutto il testo da un file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# allegato fornisce istruzioni dettagliate per eseguire questa attività.

D: Quali spazi dei nomi devo importare?

R: Nel file di codice in cui intendi estrarre il testo, includi le seguenti direttive using all’inizio del file:

using Aspose.Pdf;
using System.IO;

D: Come posso specificare la directory dei documenti?

R: Individua la lineastring dataDir = "YOUR DOCUMENT DIRECTORY"; nel codice e sostituire"YOUR DOCUMENT DIRECTORY" con il percorso effettivo della directory dei documenti.

D: Come posso aprire un documento PDF esistente?

R: Nel passaggio 4, aprirai un documento PDF esistente utilizzando il fileDocument costruttore e fornendo il percorso del file PDF di input.

D: Come estraggo tutto il testo dal documento?

R: Il passaggio 5 prevede la creazione di un fileTextAbsorber oggetto per estrarre il testo dal documento PDF. Quindi accetterai l’assorbitore per tutte le pagine.

D: Come posso accedere al testo estratto?

R: Il passaggio 6 ti guida attraverso l’accesso al testo estratto dal fileTextAbsorber oggetto.

D: Come posso salvare il testo estratto in un file?

R: Nel passaggio 7 creerai un fileTextWriter, apri il file in cui desideri salvare il testo estratto, scrivi il testo estratto nel file, quindi chiudi lo stream.

D: Qual è il punto chiave di questo tutorial?

R: Seguendo questo tutorial, hai imparato come estrarre tutto il testo da un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato in un file di output specificato, consentendoti di analizzare e manipolare il contenuto testuale del documento.