PdfExtractor

Наследование: java.lang.Object, com.aspose.pdf.facades.IVentureLicenseTarget, com.aspose.pdf.facades.Facade

public final class PdfExtractor extends Facade

Класс для извлечения изображений и текста из документа PDF.

Конструкторы

КонструкторОписание
PdfExtractor()Инициализирует новый объект PdfExtractor.
PdfExtractor(IDocument document)Инициализирует новый объект PdfExtractor на основе документа.

Методы

МетодОписание
bindPdf(IDocument srcDoc)Инициализирует фасад.
bindPdf(InputStream inputStream)Связывает PDF-документ из потока.
bindPdf(InputStream srcStream, String password)Инициализирует фасад.
bindPdf(String inputFile)Привязать входной PDF-файл.
bindPdf(String srcFile, String password)Инициализирует фасад.
close()Удаляет документ, связанный с фасадом.
dispose()Располагает фасад.
equals(Object arg0)
extractAttachment()Извлекает вложения из документа Pdf.
extractAttachment(String attachmentFileName)Извлекает вложение в файл PDF по имени вложения.
extractImage()Извлечение изображений из файла PDF.
extractMarkedContentAsImages(Page page, String path)Получает все контейнеры с отмеченным содержимым в виде отдельных изображений.
extractText()Извлекает текст из документа Pdf.
extractText(Charset encoding)Извлекает текст из документа Pdf, используя указанную кодировку.
extractTextInternal(TextEncodingInternal encoding)Только для внутреннего использования
getAttachNames()Возвращает список вложений в файле PDF.
getAttachment()Сохраняет все вложенные файлы в потоки.
getAttachment(String outputPath)Сохраняет вложение в файл.
getAttachmentInfo()Получает список вложений.
getClass()
getDocument()Получает фасад документа, над которым работает.
getEndPage()Получает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
getExtractImageMode()Устанавливает режим для процесса извлечения изображений.
getExtractTextMode()Получает режим для извлечения результата текста.
getNextImage(OutputStream outputStream)Получите следующее изображение из файла PDF и сохраните его в потоке.
getNextImage(OutputStream outputStream, ImageType format)Получить следующее изображение из файла PDF и сохранить его в поток с заданным форматом изображения.
getNextImage(String outputFile)Извлекает следующее изображение из документа PDF.
getNextImage(String outputFile, ImageType format)Извлекает следующее изображение из документа PDF с заданным форматом изображения.
getNextPageText(OutputStream outputStream)Сохраняет текст одной страницы в поток.
getNextPageText(String outputFile)Сохраняет текст одной страницы в файл.
getPassword()Получает пароль входного файла.
getResolution()Получает разрешение для извлеченных изображений.
getStartPage()Получает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
getText(OutputStream outputStream)Сохраняет текст в поток. см. также: Извлечь текст
getText(OutputStream outputStream, boolean filterNotAscii)Сохраняет текст в поток. см. также: Извлечь текст
getText(String outputFile)Сохраняет текст в файл. см. также: Извлечь текст
getTextSearchOptions()Получает параметры поиска текста.
hasNextImage()Проверяет, доступны ли дополнительные изображения в документе PDF.
hasNextPageText()Указывает, может ли получить больше текстов или нет.
hashCode()
isBidi()Верно, если в тексте есть еврейские или арабские символы.
notify()
notifyAll()
setEndPage(int value)Устанавливает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
setExtractImageMode(int value)Устанавливает режим для процесса извлечения изображений.
setExtractTextMode(int value)Устанавливает режим извлечения результата текста.
setPassword(String value)Устанавливает пароль входного файла.
setResolution(int value)Установите разрешение для извлеченных изображений.
setStartPage(int value)Устанавливает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
setTextSearchOptions(TextSearchOptions value)Задает параметры поиска текста.
toString()
wait()
wait(long arg0)
wait(long arg0, int arg1)

PdfExtractor()

public PdfExtractor()

Инициализирует новый объект PdfExtractor.

PdfExtractor(IDocument document)

public PdfExtractor(IDocument document)

Инициализирует новый объект PdfExtractor на основе документа.

Параметры:

ПараметрТипОписание
documentIDocumentДокумент пдф.

bindPdf(IDocument srcDoc)

public void bindPdf(IDocument srcDoc)

Инициализирует фасад.

Параметры:

ПараметрТипОписание
srcDocIDocumentОбъект Документ.

bindPdf(InputStream inputStream)

public void bindPdf(InputStream inputStream)

Связывает PDF-документ из потока.


PdfExtractor ext = new PdfExtractor();
 InputStream stream = new FileInputStream("sample.pdf");
 ext.bindPdf(stream);

Параметры:

ПараметрТипОписание
inputStreamjava.io.InputStreamПоток, содержащий данные документа PDF

bindPdf(InputStream srcStream, String password)

public void bindPdf(InputStream srcStream, String password)

Инициализирует фасад.

Параметры:

ПараметрТипОписание
srcStreamjava.io.InputStreamПоток файла PDF.
passwordjava.lang.StringПароль документа PDF.

bindPdf(String inputFile)

public void bindPdf(String inputFile)

Привязать входной PDF-файл.


PdfExtractor ext = new PdfExtractor();
 ext.bindPdf("sample.pdf");

Параметры:

ПараметрТипОписание
inputFilejava.lang.StringPDF-файл для привязки

bindPdf(String srcFile, String password)

public void bindPdf(String srcFile, String password)

Инициализирует фасад.

Параметры:

ПараметрТипОписание
srcFilejava.lang.StringPDF-файл
passwordjava.lang.StringПароль документа PDF.

close()

public void close()

Удаляет документ, связанный с фасадом.

dispose()

public void dispose()

Располагает фасад.

Этот метод устарел, вместо него используйте close().

equals(Object arg0)

public boolean equals(Object arg0)

Параметры:

ПараметрТипОписание
arg0java.lang.Object

Возвращает: логический

extractAttachment()

public void extractAttachment()

Извлекает вложения из документа Pdf.

extractAttachment(String attachmentFileName)

public void extractAttachment(String attachmentFileName)

Извлекает вложение в файл PDF по имени вложения.

Параметры:

ПараметрТипОписание
attachmentFileNamejava.lang.StringНазвание вложения для извлечения

extractImage()

public void extractImage()

Извлечение изображений из файла PDF.


PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf("sample.pdf");
 	extractor.extractImage();
 	int i = 1;
 	while (extractor.HasNextImage())
 	{
 	    extractor.getNextImage("image-" + i +".pdf");
 	}

extractMarkedContentAsImages(Page page, String path)

public void extractMarkedContentAsImages(Page page, String path)

Получает все контейнеры с отмеченным содержимым в виде отдельных изображений.

Каждое отмеченное содержимое будет сохранено как изображение в формате png с именем MCID._.png

Параметры:

ПараметрТипОписание
pagePageСтраница для процесса.
pathjava.lang.StringПуть, по которому будут сохраняться изображения.

extractText()

public void extractText()

Извлекает текст из документа Pdf.


First example demonstratres how to extract all the text from PDF file.
 
 
  PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf("D:\Text\text.pdf");
 	extractor.extractText();
 	extractor.getText("D:\Text\text.txt");

Второй пример демонстрирует, как извлечь текст каждой страницы в один текстовый файл.

PdfExtractor extractor = new PdfExtractor();
  extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
  extractor.extractText();
  String prefix = TestPath + "Aspose.Pdf.Kit";
  String suffix = ".txt";
  int pageCount = 1;
  while (extractor.hasNextPageText())
  {
      extractor.getNextPageText(prefix + pageCount + suffix);
      pageCount++;
  }

extractText(Charset encoding)

public void extractText(Charset encoding)

Извлекает текст из документа Pdf, используя указанную кодировку.


First example demonstrates how to extract all the text from PDF file.
 
 
  PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf("D:\\Text\\text.pdf");
 	extractor.extractText(Encoding.Unicode);
 	extractor.getText("D:\\Text\\text.txt");

Второй пример демонстрирует, как извлечь текст каждой страницы в один текстовый файл.

PdfExtractor extractor = new PdfExtractor();
  extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
  extractor.extractText(java.nio.charset.Charset.forName("UTF-8"));
  String prefix = TestPath + "Aspose.Pdf.Kit";
  String suffix = ".txt";
  int pageCount = 1;
  while (extractor.hasNextPageText())
  {
      extractor.getNextPageText(prefix + pageCount + suffix);
      pageCount++;
  }

Параметры:

ПараметрТипОписание
encodingjava.nio.charset.CharsetКодировка извлеченного текста.

extractTextInternal(TextEncodingInternal encoding)

public void extractTextInternal(TextEncodingInternal encoding)

Только для внутреннего использования

Параметры:

ПараметрТипОписание
encodingTextEncodingInternalКодировка извлеченного текста.

getAttachNames()

public List<String> getAttachNames()

Возвращает список вложений в файле PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractAttachments.


Example demonstrates how to extract attachment names form PDF file.
 
 
  PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf(TestSettings.GetInputFile("sample.pdf"));
 	extractor.ExtractAttachment();
 	List attachments = extractor.getAttachNames();
 	for (String name : ```
(Iterable)
```attachments)
 		System.out.println(name);

Возвращает: java.util.List<java.lang.String> — Список вложений

getAttachment()

public ByteArrayOutputStream[] getAttachment()

Сохраняет все вложенные файлы в потоки.


PdfExtractor extractor = new PdfExtractor();     
 	extractor.bindPdf(path + "Attach.pdf");
 	extractor.extractAttachment();
 	IList names = extractor.getAttachNames();
 	ByteArrayOutputStream[] tempStreams =  extractor.getAttachment();
 	for (int i=0; i<tempStreams.Length; i++)
 	{
 		string name = (string)names[i];
 		OutputStream fs = new FileOutputStream(path + name);
 		fs.write(tempStreams[i].toByteArray()); 
 		fs.close();
 	}

Возвращает: java.io.ByteArrayOutputStream[- Потоковый массив вложенного файла в pdf-документе.

getAttachment(String outputPath)

public void getAttachment(String outputPath)

Сохраняет вложение в файл.

Параметры:

ПараметрТипОписание
outputPathjava.lang.StringПуть к каталогу, в котором будут храниться вложения. Нулевая или пустая строка означает, что вложения будут помещены в каталог приложения.

getAttachmentInfo()

public List<FileSpecification> getAttachmentInfo()

Получает список вложений.

Возвращает: java.util.List<com.aspose.pdf.FileSpecification> — возвращает список.

getClass()

public final native Class<?> getClass()

Возвращает: java.lang.Класс

getDocument()

public IDocument getDocument()

Получает фасад документа, над которым работает.

Возвращает: IDocument - элемент IDocument

getEndPage()

public int getEndPage()

Получает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.


PdfExtractor ext = new PdfExtractor();
 ext.bindBdf("sample.pdf");
 ext.setStartPage(2);
 ext.setEndPage(3);
 ext.extractText();

Возвращает: int - конечная страница.

getExtractImageMode()

public int getExtractImageMode()

Устанавливает режим для процесса извлечения изображений.


Значение по умолчанию — ExtractImageMode.DefinedInResources, которое извлекает все изображения, определенные в ресурсах. Для извлечения реально показанных изображений следует использовать режим ExtractImageMode.ActuallyUsed.

Возвращает: int — значение ExtractImageMode

getExtractTextMode()

public int getExtractTextMode()

Получает режим для извлечения результата текста.


The example demonstratres the ```
ExtractTextMode
``` property usage in text extraction scenario.
 
 
  PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf(@"D:\Text\text.pdf");
  extractor.setExtractTextMode(1);
 	extractor.extractText();
 	extractor.getText(@"D:\Text\text.txt");

Значение: 0 — чисто текстовый режим, 1 — режим необработанного упорядочения. По умолчанию 0.

Возвращает: int - извлечь текстовый результат.

getNextImage(OutputStream outputStream)

public boolean getNextImage(OutputStream outputStream)

Получите следующее изображение из файла PDF и сохраните его в потоке.

Параметры:

ПараметрТипОписание
outputStreamjava.io.OutputStreamПоток, в котором будут сохранены данные изображения

Возвращает: boolean — Истинно, если изображение успешно извлечено.

getNextImage(OutputStream outputStream, ImageType format)

public boolean getNextImage(OutputStream outputStream, ImageType format)

Получить следующее изображение из файла PDF и сохранить его в поток с заданным форматом изображения.

Параметры:

ПараметрТипОписание
outputStreamjava.io.OutputStreamПоток, в котором будут сохранены данные изображения
formatImageTypeФормат изображения.

Возвращает: boolean — Истинно, если изображение успешно извлечено.

getNextImage(String outputFile)

public boolean getNextImage(String outputFile)

Извлекает следующее изображение из документа PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.


PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf("sample.pdf");
 	extractor.extractImage();
 	int i = 1;
 	while (extractor.hasNextImage())
 	{
 	    extractor.getNextImage("image-" + i +".pdf");
 	}

Параметры:

ПараметрТипОписание
outputFilejava.lang.StringФайл, в котором будет храниться изображение

Возвращает: boolean - True означает, что изображение успешно извлечено

getNextImage(String outputFile, ImageType format)

public boolean getNextImage(String outputFile, ImageType format)

Извлекает следующее изображение из документа PDF с заданным форматом изображения. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.

Параметры:

ПараметрТипОписание
outputFilejava.lang.StringФайл, в котором будет храниться изображение
formatImageTypeЭлемент ImageType

Возвращает: boolean - True означает, что изображение успешно извлечено

getNextPageText(OutputStream outputStream)

public void getNextPageText(OutputStream outputStream)

Сохраняет текст одной страницы в поток.


The example demonstratres the ```
GetNextPageText
``` method usage in text extraction scenario.
 
 
  PdfExtractor extractor = new PdfExtractor();
  extractor.bindPdf(TestPath + @"Aspose.Pdf.Kit.Pdf");
  extractor.extractText(Encoding.Unicode);
  String prefix = TestPath + "Aspose.Pdf.Kit";
  String suffix = ".txt";
  int pageCount = 1;
  while (extractor.hasNextPageText())
  {
      FileInputStream fs = new FileInputStream(prefix + pageCount + suffix, FileMode.Create);
      extractor.getNextPageText(fs);
      fs.close();
      pageCount++;
  }

Параметры:

ПараметрТипОписание
outputStreamjava.io.OutputStreamПоток для сохранения текста.

getNextPageText(String outputFile)

public void getNextPageText(String outputFile)

Сохраняет текст одной страницы в файл.


The example demonstratres the GetNextPageText method usage in text extraction scenario.
 
 
  PdfExtractor extractor = new PdfExtractor();
  extractor.bindPdf(TestPath + @"Aspose.Pdf.Kit.Pdf");
  extractor.extractText(Encoding.Unicode);
  String prefix = TestPath + @"Aspose.Pdf.Kit";
  String suffix = ".txt";
  int pageCount = 1;
  while (extractor.hasNextPageText())
  {
      extractor.getNextPageText(prefix + pageCount + suffix);
      pageCount++;
  }

Параметры:

ПараметрТипОписание
outputFilejava.lang.StringПуть и имя файла для сохранения текста.

getPassword()

public String getPassword()

Получает пароль входного файла.

Возвращает: java.lang.String — строковое значение

getResolution()

public int getResolution()

Получает разрешение для извлеченных изображений. Значение по умолчанию — 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение 150 или 300.

Возвращает: интервал - целочисленное значение

getStartPage()

public int getStartPage()

Получает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.


PdfExtractor ext = new PdfExtractor();
 ext.bindBdf("sample.pdf");
 ext.setStartPage(2);
 ext.setEndPage(5);
 ext.extractText();

Возвращает: int - начальная страница в диапазоне страниц.

getText(OutputStream outputStream)

public void getText(OutputStream outputStream)

Сохраняет текст в поток. см. также: Извлечь текст

Параметры:

ПараметрТипОписание
outputStreamjava.io.OutputStreamПоток для сохранения текста.

getText(OutputStream outputStream, boolean filterNotAscii)

public void getText(OutputStream outputStream, boolean filterNotAscii)

Сохраняет текст в поток. см. также: Извлечь текст

Параметры:

ПараметрТипОписание
outputStreamjava.io.OutputStreamПоток для сохранения текста.
filterNotAsciibooleanЕсли этот параметр имеет значение true, все символы, отличные от ASCII, будут удалены.

getText(String outputFile)

public void getText(String outputFile)

Сохраняет текст в файл. см. также: Извлечь текст

Параметры:

ПараметрТипОписание
outputFilejava.lang.StringПуть и имя файла для сохранения текста.

getTextSearchOptions()

public TextSearchOptions getTextSearchOptions()

Получает параметры поиска текста.

Возвращает: TextSearchOptions - параметры текстового поиска.

hasNextImage()

public boolean hasNextImage()

Проверяет, доступны ли дополнительные изображения в документе PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.


PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf("sample.pdf");
 	extractor.extractImage();
 	int i = 1;
 	while (extractor.hasNextImage())
 	{
 	    extractor.getNextImage("image-" + i +".pdf");
 	}

Возвращает: boolean - Истинно, если доступно больше изображений

hasNextPageText()

public boolean hasNextPageText()

Указывает, может ли получить больше текстов или нет.


The example demonstratres the ```
HasNextPageText
``` property usage in text extraction scenario.
 
 
  PdfExtractor extractor = new PdfExtractor();
  extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
  extractor.extractText(Encoding.Unicode);
  String prefix = TestPath + "Aspose.Pdf.Kit";
  String suffix = ".txt";
  int pageCount = 1;
  while (extractor.hasNextPageText())
  {
      extractor.getNextPageText(prefix + pageCount + suffix);
      pageCount++;
  }

Возвращает: boolean - Может получить больше текстов или нет, true может или false.

hashCode()

public native int hashCode()

Возвращает: инт

isBidi()

public boolean isBidi()

Верно, если в тексте есть еврейские или арабские символы. Этот случай следует рассмотреть особо, поскольку строковые функции меняют свое поведение и начинают обрабатывать текст справа налево (кроме чисел и других нетекстовых символов).

Возвращает: boolean - логическое значение

notify()

public final native void notify()

notifyAll()

public final native void notifyAll()

setEndPage(int value)

public void setEndPage(int value)

Устанавливает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.


PdfExtractor ext = new PdfExtractor();
 ext.bindBdf("sample.pdf");
 ext.setStartPage(2);
 ext.setEndPage(3);
 ext.extractText();

Параметры:

ПараметрТипОписание
valueintконечная страница.

setExtractImageMode(int value)

public void setExtractImageMode(int value)

Устанавливает режим для процесса извлечения изображений.


Значение по умолчанию — ExtractImageMode.DefinedInResources, которое извлекает все изображения, определенные в ресурсах. Для извлечения реально показанных изображений следует использовать режим ExtractImageMode.ActuallyUsed.

Параметры:

ПараметрТипОписание
valueintЗначение Экстрактимажемоде

setExtractTextMode(int value)

public void setExtractTextMode(int value)

Устанавливает режим извлечения результата текста.


The example demonstratres the ```
ExtractTextMode
``` property usage in text extraction scenario.
 
 
  PdfExtractor extractor = new PdfExtractor();
 	extractor.bindPdf(@"D:\Text\text.pdf");
  extractor.setExtractTextMode(1);
 	extractor.extractText();
 	extractor.getText(@"D:\Text\text.txt");

Значение: 0 — чисто текстовый режим, 1 — режим необработанного упорядочения. По умолчанию 0.

Параметры:

ПараметрТипОписание
valueintизвлечь результат текста.

setPassword(String value)

public void setPassword(String value)

Устанавливает пароль входного файла.

Параметры:

ПараметрТипОписание
valuejava.lang.StringСтроковое значение

setResolution(int value)

public void setResolution(int value)

Установите разрешение для извлеченных изображений. Значение по умолчанию — 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение 150 или 300.

Параметры:

ПараметрТипОписание
valueintцелое значение

setStartPage(int value)

public void setStartPage(int value)

Устанавливает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.


PdfExtractor ext = new PdfExtractor();
 ext.bindBdf("sample.pdf");
 ext.setStartPage(2);
 ext.setEndPage(5);
 ext.extractText();

Параметры:

ПараметрТипОписание
valueintначальная страница в диапазоне страниц.

setTextSearchOptions(TextSearchOptions value)

public void setTextSearchOptions(TextSearchOptions value)

Задает параметры поиска текста.

Параметры:

ПараметрТипОписание
valueTextSearchOptionsпараметры текстового поиска.

toString()

public String toString()

Возвращает: java.lang.String

wait()

public final void wait()

wait(long arg0)

public final native void wait(long arg0)

Параметры:

ПараметрТипОписание
arg0long

wait(long arg0, int arg1)

public final void wait(long arg0, int arg1)

Параметры:

ПараметрТипОписание
arg0long
arg1int