PdfExtractor
Наследование: java.lang.Object, com.aspose.pdf.facades.IVentureLicenseTarget, com.aspose.pdf.facades.Facade
public final class PdfExtractor extends Facade
Класс для извлечения изображений и текста из документа PDF.
Конструкторы
Конструктор | Описание |
---|---|
PdfExtractor() | Инициализирует новый объект PdfExtractor. |
PdfExtractor(IDocument document) | Инициализирует новый объект PdfExtractor на основе документа. |
Методы
Метод | Описание |
---|---|
bindPdf(IDocument srcDoc) | Инициализирует фасад. |
bindPdf(InputStream inputStream) | Связывает PDF-документ из потока. |
bindPdf(InputStream srcStream, String password) | Инициализирует фасад. |
bindPdf(String inputFile) | Привязать входной PDF-файл. |
bindPdf(String srcFile, String password) | Инициализирует фасад. |
close() | Удаляет документ, связанный с фасадом. |
dispose() | Располагает фасад. |
equals(Object arg0) | |
extractAttachment() | Извлекает вложения из документа Pdf. |
extractAttachment(String attachmentFileName) | Извлекает вложение в файл PDF по имени вложения. |
extractImage() | Извлечение изображений из файла PDF. |
extractMarkedContentAsImages(Page page, String path) | Получает все контейнеры с отмеченным содержимым в виде отдельных изображений. |
extractText() | Извлекает текст из документа Pdf. |
extractText(Charset encoding) | Извлекает текст из документа Pdf, используя указанную кодировку. |
extractTextInternal(TextEncodingInternal encoding) | Только для внутреннего использования |
getAttachNames() | Возвращает список вложений в файле PDF. |
getAttachment() | Сохраняет все вложенные файлы в потоки. |
getAttachment(String outputPath) | Сохраняет вложение в файл. |
getAttachmentInfo() | Получает список вложений. |
getClass() | |
getDocument() | Получает фасад документа, над которым работает. |
getEndPage() | Получает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения. |
getExtractImageMode() | Устанавливает режим для процесса извлечения изображений. |
getExtractTextMode() | Получает режим для извлечения результата текста. |
getNextImage(OutputStream outputStream) | Получите следующее изображение из файла PDF и сохраните его в потоке. |
getNextImage(OutputStream outputStream, ImageType format) | Получить следующее изображение из файла PDF и сохранить его в поток с заданным форматом изображения. |
getNextImage(String outputFile) | Извлекает следующее изображение из документа PDF. |
getNextImage(String outputFile, ImageType format) | Извлекает следующее изображение из документа PDF с заданным форматом изображения. |
getNextPageText(OutputStream outputStream) | Сохраняет текст одной страницы в поток. |
getNextPageText(String outputFile) | Сохраняет текст одной страницы в файл. |
getPassword() | Получает пароль входного файла. |
getResolution() | Получает разрешение для извлеченных изображений. |
getStartPage() | Получает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения. |
getText(OutputStream outputStream) | Сохраняет текст в поток. см. также: Извлечь текст |
getText(OutputStream outputStream, boolean filterNotAscii) | Сохраняет текст в поток. см. также: Извлечь текст |
getText(String outputFile) | Сохраняет текст в файл. см. также: Извлечь текст |
getTextSearchOptions() | Получает параметры поиска текста. |
hasNextImage() | Проверяет, доступны ли дополнительные изображения в документе PDF. |
hasNextPageText() | Указывает, может ли получить больше текстов или нет. |
hashCode() | |
isBidi() | Верно, если в тексте есть еврейские или арабские символы. |
notify() | |
notifyAll() | |
setEndPage(int value) | Устанавливает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения. |
setExtractImageMode(int value) | Устанавливает режим для процесса извлечения изображений. |
setExtractTextMode(int value) | Устанавливает режим извлечения результата текста. |
setPassword(String value) | Устанавливает пароль входного файла. |
setResolution(int value) | Установите разрешение для извлеченных изображений. |
setStartPage(int value) | Устанавливает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения. |
setTextSearchOptions(TextSearchOptions value) | Задает параметры поиска текста. |
toString() | |
wait() | |
wait(long arg0) | |
wait(long arg0, int arg1) |
PdfExtractor()
public PdfExtractor()
Инициализирует новый объект PdfExtractor.
PdfExtractor(IDocument document)
public PdfExtractor(IDocument document)
Инициализирует новый объект PdfExtractor на основе документа.
Параметры:
Параметр | Тип | Описание |
---|---|---|
document | IDocument | Документ пдф. |
bindPdf(IDocument srcDoc)
public void bindPdf(IDocument srcDoc)
Инициализирует фасад.
Параметры:
Параметр | Тип | Описание |
---|---|---|
srcDoc | IDocument | Объект Документ. |
bindPdf(InputStream inputStream)
public void bindPdf(InputStream inputStream)
Связывает PDF-документ из потока.
PdfExtractor ext = new PdfExtractor();
InputStream stream = new FileInputStream("sample.pdf");
ext.bindPdf(stream);
Параметры:
Параметр | Тип | Описание |
---|---|---|
inputStream | java.io.InputStream | Поток, содержащий данные документа PDF |
bindPdf(InputStream srcStream, String password)
public void bindPdf(InputStream srcStream, String password)
Инициализирует фасад.
Параметры:
Параметр | Тип | Описание |
---|---|---|
srcStream | java.io.InputStream | Поток файла PDF. |
password | java.lang.String | Пароль документа PDF. |
bindPdf(String inputFile)
public void bindPdf(String inputFile)
Привязать входной PDF-файл.
PdfExtractor ext = new PdfExtractor();
ext.bindPdf("sample.pdf");
Параметры:
Параметр | Тип | Описание |
---|---|---|
inputFile | java.lang.String | PDF-файл для привязки |
bindPdf(String srcFile, String password)
public void bindPdf(String srcFile, String password)
Инициализирует фасад.
Параметры:
Параметр | Тип | Описание |
---|---|---|
srcFile | java.lang.String | PDF-файл |
password | java.lang.String | Пароль документа PDF. |
close()
public void close()
Удаляет документ, связанный с фасадом.
dispose()
public void dispose()
Располагает фасад.
Этот метод устарел, вместо него используйте close().
equals(Object arg0)
public boolean equals(Object arg0)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | java.lang.Object |
Возвращает: логический
extractAttachment()
public void extractAttachment()
Извлекает вложения из документа Pdf.
extractAttachment(String attachmentFileName)
public void extractAttachment(String attachmentFileName)
Извлекает вложение в файл PDF по имени вложения.
Параметры:
Параметр | Тип | Описание |
---|---|---|
attachmentFileName | java.lang.String | Название вложения для извлечения |
extractImage()
public void extractImage()
Извлечение изображений из файла PDF.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf("sample.pdf");
extractor.extractImage();
int i = 1;
while (extractor.HasNextImage())
{
extractor.getNextImage("image-" + i +".pdf");
}
extractMarkedContentAsImages(Page page, String path)
public void extractMarkedContentAsImages(Page page, String path)
Получает все контейнеры с отмеченным содержимым в виде отдельных изображений.
Каждое отмеченное содержимое будет сохранено как изображение в формате png с именем MCID._.png
Параметры:
Параметр | Тип | Описание |
---|---|---|
page | Page | Страница для процесса. |
path | java.lang.String | Путь, по которому будут сохраняться изображения. |
extractText()
public void extractText()
Извлекает текст из документа Pdf.
First example demonstratres how to extract all the text from PDF file.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf("D:\Text\text.pdf");
extractor.extractText();
extractor.getText("D:\Text\text.txt");
Второй пример демонстрирует, как извлечь текст каждой страницы в один текстовый файл.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
extractor.extractText();
String prefix = TestPath + "Aspose.Pdf.Kit";
String suffix = ".txt";
int pageCount = 1;
while (extractor.hasNextPageText())
{
extractor.getNextPageText(prefix + pageCount + suffix);
pageCount++;
}
extractText(Charset encoding)
public void extractText(Charset encoding)
Извлекает текст из документа Pdf, используя указанную кодировку.
First example demonstrates how to extract all the text from PDF file.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf("D:\\Text\\text.pdf");
extractor.extractText(Encoding.Unicode);
extractor.getText("D:\\Text\\text.txt");
Второй пример демонстрирует, как извлечь текст каждой страницы в один текстовый файл.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
extractor.extractText(java.nio.charset.Charset.forName("UTF-8"));
String prefix = TestPath + "Aspose.Pdf.Kit";
String suffix = ".txt";
int pageCount = 1;
while (extractor.hasNextPageText())
{
extractor.getNextPageText(prefix + pageCount + suffix);
pageCount++;
}
Параметры:
Параметр | Тип | Описание |
---|---|---|
encoding | java.nio.charset.Charset | Кодировка извлеченного текста. |
extractTextInternal(TextEncodingInternal encoding)
public void extractTextInternal(TextEncodingInternal encoding)
Только для внутреннего использования
Параметры:
Параметр | Тип | Описание |
---|---|---|
encoding | TextEncodingInternal | Кодировка извлеченного текста. |
getAttachNames()
public List<String> getAttachNames()
Возвращает список вложений в файле PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractAttachments.
Example demonstrates how to extract attachment names form PDF file.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestSettings.GetInputFile("sample.pdf"));
extractor.ExtractAttachment();
List attachments = extractor.getAttachNames();
for (String name : ```
(Iterable)
```attachments)
System.out.println(name);
Возвращает: java.util.List<java.lang.String> — Список вложений
getAttachment()
public ByteArrayOutputStream[] getAttachment()
Сохраняет все вложенные файлы в потоки.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(path + "Attach.pdf");
extractor.extractAttachment();
IList names = extractor.getAttachNames();
ByteArrayOutputStream[] tempStreams = extractor.getAttachment();
for (int i=0; i<tempStreams.Length; i++)
{
string name = (string)names[i];
OutputStream fs = new FileOutputStream(path + name);
fs.write(tempStreams[i].toByteArray());
fs.close();
}
Возвращает: java.io.ByteArrayOutputStream[- Потоковый массив вложенного файла в pdf-документе.
getAttachment(String outputPath)
public void getAttachment(String outputPath)
Сохраняет вложение в файл.
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputPath | java.lang.String | Путь к каталогу, в котором будут храниться вложения. Нулевая или пустая строка означает, что вложения будут помещены в каталог приложения. |
getAttachmentInfo()
public List<FileSpecification> getAttachmentInfo()
Получает список вложений.
Возвращает:
java.util.List<com.aspose.pdf.FileSpecification> — возвращает список
getClass()
public final native Class<?> getClass()
Возвращает: java.lang.Класс
getDocument()
public IDocument getDocument()
Получает фасад документа, над которым работает.
Возвращает: IDocument - элемент IDocument
getEndPage()
public int getEndPage()
Получает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
PdfExtractor ext = new PdfExtractor();
ext.bindBdf("sample.pdf");
ext.setStartPage(2);
ext.setEndPage(3);
ext.extractText();
Возвращает: int - конечная страница.
getExtractImageMode()
public int getExtractImageMode()
Устанавливает режим для процесса извлечения изображений.
Значение по умолчанию — ExtractImageMode.DefinedInResources, которое извлекает все изображения, определенные в ресурсах. Для извлечения реально показанных изображений следует использовать режим ExtractImageMode.ActuallyUsed.
Возвращает: int — значение ExtractImageMode
getExtractTextMode()
public int getExtractTextMode()
Получает режим для извлечения результата текста.
The example demonstratres the ```
ExtractTextMode
``` property usage in text extraction scenario.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(@"D:\Text\text.pdf");
extractor.setExtractTextMode(1);
extractor.extractText();
extractor.getText(@"D:\Text\text.txt");
Значение: 0 — чисто текстовый режим, 1 — режим необработанного упорядочения. По умолчанию 0.
Возвращает: int - извлечь текстовый результат.
getNextImage(OutputStream outputStream)
public boolean getNextImage(OutputStream outputStream)
Получите следующее изображение из файла PDF и сохраните его в потоке.
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputStream | java.io.OutputStream | Поток, в котором будут сохранены данные изображения |
Возвращает: boolean — Истинно, если изображение успешно извлечено.
getNextImage(OutputStream outputStream, ImageType format)
public boolean getNextImage(OutputStream outputStream, ImageType format)
Получить следующее изображение из файла PDF и сохранить его в поток с заданным форматом изображения.
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputStream | java.io.OutputStream | Поток, в котором будут сохранены данные изображения |
format | ImageType | Формат изображения. |
Возвращает: boolean — Истинно, если изображение успешно извлечено.
getNextImage(String outputFile)
public boolean getNextImage(String outputFile)
Извлекает следующее изображение из документа PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf("sample.pdf");
extractor.extractImage();
int i = 1;
while (extractor.hasNextImage())
{
extractor.getNextImage("image-" + i +".pdf");
}
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputFile | java.lang.String | Файл, в котором будет храниться изображение |
Возвращает: boolean - True означает, что изображение успешно извлечено
getNextImage(String outputFile, ImageType format)
public boolean getNextImage(String outputFile, ImageType format)
Извлекает следующее изображение из документа PDF с заданным форматом изображения. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputFile | java.lang.String | Файл, в котором будет храниться изображение |
format | ImageType | Элемент ImageType |
Возвращает: boolean - True означает, что изображение успешно извлечено
getNextPageText(OutputStream outputStream)
public void getNextPageText(OutputStream outputStream)
Сохраняет текст одной страницы в поток.
The example demonstratres the ```
GetNextPageText
``` method usage in text extraction scenario.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestPath + @"Aspose.Pdf.Kit.Pdf");
extractor.extractText(Encoding.Unicode);
String prefix = TestPath + "Aspose.Pdf.Kit";
String suffix = ".txt";
int pageCount = 1;
while (extractor.hasNextPageText())
{
FileInputStream fs = new FileInputStream(prefix + pageCount + suffix, FileMode.Create);
extractor.getNextPageText(fs);
fs.close();
pageCount++;
}
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputStream | java.io.OutputStream | Поток для сохранения текста. |
getNextPageText(String outputFile)
public void getNextPageText(String outputFile)
Сохраняет текст одной страницы в файл.
The example demonstratres the GetNextPageText method usage in text extraction scenario.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestPath + @"Aspose.Pdf.Kit.Pdf");
extractor.extractText(Encoding.Unicode);
String prefix = TestPath + @"Aspose.Pdf.Kit";
String suffix = ".txt";
int pageCount = 1;
while (extractor.hasNextPageText())
{
extractor.getNextPageText(prefix + pageCount + suffix);
pageCount++;
}
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputFile | java.lang.String | Путь и имя файла для сохранения текста. |
getPassword()
public String getPassword()
Получает пароль входного файла.
Возвращает: java.lang.String — строковое значение
getResolution()
public int getResolution()
Получает разрешение для извлеченных изображений. Значение по умолчанию — 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение 150 или 300.
Возвращает: интервал - целочисленное значение
getStartPage()
public int getStartPage()
Получает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
PdfExtractor ext = new PdfExtractor();
ext.bindBdf("sample.pdf");
ext.setStartPage(2);
ext.setEndPage(5);
ext.extractText();
Возвращает: int - начальная страница в диапазоне страниц.
getText(OutputStream outputStream)
public void getText(OutputStream outputStream)
Сохраняет текст в поток. см. также: Извлечь текст
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputStream | java.io.OutputStream | Поток для сохранения текста. |
getText(OutputStream outputStream, boolean filterNotAscii)
public void getText(OutputStream outputStream, boolean filterNotAscii)
Сохраняет текст в поток. см. также: Извлечь текст
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputStream | java.io.OutputStream | Поток для сохранения текста. |
filterNotAscii | boolean | Если этот параметр имеет значение true, все символы, отличные от ASCII, будут удалены. |
getText(String outputFile)
public void getText(String outputFile)
Сохраняет текст в файл. см. также: Извлечь текст
Параметры:
Параметр | Тип | Описание |
---|---|---|
outputFile | java.lang.String | Путь и имя файла для сохранения текста. |
getTextSearchOptions()
public TextSearchOptions getTextSearchOptions()
Получает параметры поиска текста.
Возвращает: TextSearchOptions - параметры текстового поиска.
hasNextImage()
public boolean hasNextImage()
Проверяет, доступны ли дополнительные изображения в документе PDF. Примечание. Перед использованием этого метода необходимо вызвать ExtractImage.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf("sample.pdf");
extractor.extractImage();
int i = 1;
while (extractor.hasNextImage())
{
extractor.getNextImage("image-" + i +".pdf");
}
Возвращает: boolean - Истинно, если доступно больше изображений
hasNextPageText()
public boolean hasNextPageText()
Указывает, может ли получить больше текстов или нет.
The example demonstratres the ```
HasNextPageText
``` property usage in text extraction scenario.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(TestPath + "Aspose.Pdf.Kit.Pdf");
extractor.extractText(Encoding.Unicode);
String prefix = TestPath + "Aspose.Pdf.Kit";
String suffix = ".txt";
int pageCount = 1;
while (extractor.hasNextPageText())
{
extractor.getNextPageText(prefix + pageCount + suffix);
pageCount++;
}
Возвращает: boolean - Может получить больше текстов или нет, true может или false.
hashCode()
public native int hashCode()
Возвращает: инт
isBidi()
public boolean isBidi()
Верно, если в тексте есть еврейские или арабские символы. Этот случай следует рассмотреть особо, поскольку строковые функции меняют свое поведение и начинают обрабатывать текст справа налево (кроме чисел и других нетекстовых символов).
Возвращает: boolean - логическое значение
notify()
public final native void notify()
notifyAll()
public final native void notifyAll()
setEndPage(int value)
public void setEndPage(int value)
Устанавливает конечную страницу в диапазоне страниц, где будет выполняться операция извлечения.
PdfExtractor ext = new PdfExtractor();
ext.bindBdf("sample.pdf");
ext.setStartPage(2);
ext.setEndPage(3);
ext.extractText();
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | int | конечная страница. |
setExtractImageMode(int value)
public void setExtractImageMode(int value)
Устанавливает режим для процесса извлечения изображений.
Значение по умолчанию — ExtractImageMode.DefinedInResources, которое извлекает все изображения, определенные в ресурсах. Для извлечения реально показанных изображений следует использовать режим ExtractImageMode.ActuallyUsed.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | int | Значение Экстрактимажемоде |
setExtractTextMode(int value)
public void setExtractTextMode(int value)
Устанавливает режим извлечения результата текста.
The example demonstratres the ```
ExtractTextMode
``` property usage in text extraction scenario.
PdfExtractor extractor = new PdfExtractor();
extractor.bindPdf(@"D:\Text\text.pdf");
extractor.setExtractTextMode(1);
extractor.extractText();
extractor.getText(@"D:\Text\text.txt");
Значение: 0 — чисто текстовый режим, 1 — режим необработанного упорядочения. По умолчанию 0.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | int | извлечь результат текста. |
setPassword(String value)
public void setPassword(String value)
Устанавливает пароль входного файла.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | java.lang.String | Строковое значение |
setResolution(int value)
public void setResolution(int value)
Установите разрешение для извлеченных изображений. Значение по умолчанию — 150. Изображения с большим значением разрешения более четкие. Однако увеличение значения разрешения приводит к увеличению времени и памяти, необходимых для извлечения изображений. Обычно для получения четкого изображения достаточно установить разрешение 150 или 300.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | int | целое значение |
setStartPage(int value)
public void setStartPage(int value)
Устанавливает начальную страницу в диапазоне страниц, где будет выполняться операция извлечения.
PdfExtractor ext = new PdfExtractor();
ext.bindBdf("sample.pdf");
ext.setStartPage(2);
ext.setEndPage(5);
ext.extractText();
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | int | начальная страница в диапазоне страниц. |
setTextSearchOptions(TextSearchOptions value)
public void setTextSearchOptions(TextSearchOptions value)
Задает параметры поиска текста.
Параметры:
Параметр | Тип | Описание |
---|---|---|
value | TextSearchOptions | параметры текстового поиска. |
toString()
public String toString()
Возвращает: java.lang.String
wait()
public final void wait()
wait(long arg0)
public final native void wait(long arg0)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | long |
wait(long arg0, int arg1)
public final void wait(long arg0, int arg1)
Параметры:
Параметр | Тип | Описание |
---|---|---|
arg0 | long | |
arg1 | int |