Extraia texto da região da página em arquivo PDF
Este tutorial irá guiá-lo através do processo de extração de texto de uma região específica em uma página em arquivo PDF usando Aspose.PDF for .NET. O código-fonte C# fornecido demonstra as etapas necessárias.
Requisitos
Antes de começar, certifique-se de ter o seguinte:
- Visual Studio ou qualquer outro compilador C# instalado em sua máquina.
- Biblioteca Aspose.PDF para .NET. Você pode baixá-lo do site oficial do Aspose ou usar um gerenciador de pacotes como o NuGet para instalá-lo.
Etapa 1: configurar o projeto
- Crie um novo projeto C# em seu ambiente de desenvolvimento preferido.
- Adicione uma referência à biblioteca Aspose.PDF para .NET.
Etapa 2: importar namespaces necessários
No arquivo de código onde você deseja extrair o texto, adicione o seguinte usando diretivas na parte superior do arquivo:
using Aspose.Pdf;
using System.IO;
Etapa 3: definir o diretório do documento
No código, localize a linha que dizstring dataDir = "YOUR DOCUMENT DIRECTORY";
e substitua"YOUR DOCUMENT DIRECTORY"
com o caminho para o diretório onde seus documentos estão armazenados.
Passo 4: Abra o documento PDF
Abra um documento PDF existente usando oDocument
construtor e passando o caminho para o arquivo PDF de entrada.
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
Etapa 5: extrair texto de uma região da página
Criar umaTextAbsorber
objeto para extrair texto do documento. Configurar oTextSearchOptions
para limitar a pesquisa a uma região específica da página definida por um retângulo.
TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);
Etapa 6: obtenha o texto extraído
Acesse o texto extraído doTextAbsorber
objeto.
string extractedText = absorb.Text;
Etapa 7: salve o texto extraído
Criar umaTextWriter
e abra o arquivo onde deseja salvar o texto extraído. Escreva o texto extraído no arquivo e feche o fluxo.
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();
Exemplo de código-fonte para extrair texto da região da página usando Aspose.PDF para .NET
// O caminho para o diretório de documentos.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Abrir documento
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Crie o objeto TextAbsorber para extrair texto
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// Aceite o absorvente para a primeira página
pdfDocument.Pages[1].Accept(absorber);
// Obtenha o texto extraído
string extractedText = absorber.Text;
// Crie um gravador e abra o arquivo
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Escreva uma linha de texto no arquivo
tw.WriteLine(extractedText);
// Fechar o fluxo
tw.Close();
Conclusão
Você extraiu com sucesso o texto de uma região específica em uma página de um documento PDF usando Aspose.PDF for .NET. O texto extraído foi salvo no arquivo de saída especificado.
Perguntas frequentes
P: Qual é o objetivo deste tutorial?
R: Este tutorial tem como objetivo orientá-lo no processo de extração de texto de uma região específica de uma página em um arquivo PDF usando Aspose.PDF for .NET. O código-fonte C# que acompanha fornece instruções passo a passo para realizar essa tarefa.
P: Quais namespaces devo importar?
R: No arquivo de código onde você pretende extrair o texto, inclua o seguinte usando diretivas no início do arquivo:
using Aspose.Pdf;
using System.IO;
P: Como especifico o diretório do documento?
R: Localize a linhastring dataDir = "YOUR DOCUMENT DIRECTORY";
no código e substitua"YOUR DOCUMENT DIRECTORY"
com o caminho real para o diretório do seu documento.
P: Como abro um documento PDF existente?
R: Na Etapa 4, você abrirá um documento PDF existente usando oDocument
construtor e fornecendo o caminho para o arquivo PDF de entrada.
P: Como extraio texto de uma região específica da página?
R: A Etapa 5 envolve a criação de umTextAbsorber
objeto para extrair texto do documento PDF. Você então configurará oTextSearchOptions
para definir uma região retangular específica na página usando coordenadas.
P: Como acesso o texto extraído?
R: A Etapa 6 orienta você no acesso ao texto extraído doTextAbsorber
objeto.
P: Como salvo o texto extraído em um arquivo?
R: Na Etapa 7, você criará umTextWriter
, abra o arquivo onde deseja salvar o texto extraído, grave o texto extraído no arquivo e feche o fluxo.
P: Qual é a principal conclusão deste tutorial?
R: Seguindo este tutorial, você aprendeu como extrair texto de uma região específica em uma página de um documento PDF usando Aspose.PDF for .NET. O texto extraído foi salvo em um arquivo de saída especificado, permitindo direcionar e analisar com precisão o conteúdo textual desejado.