<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Исключение текста и анализ Java High Code API
Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия
GroupDocsparser для Java-это локальный API, который позволяет вашим приложениям Java анализировать и извлекать данные из различных форматов файлов. Это позволяет вам извлекать гиперссылки, таблицы, штрих -коды, текст, изображения, а также извлечение данных из ZIP -архивов, архивов электронной почты, портфелей PDF и баз данных. GroupDocs.parser для Java может использоваться для определения пользовательских шаблонов, содержащих фиксированные, Regex и связанные позиции поля для точного извлечения данных.
Текстовые извлечения и диапазон Java Upi Features API
Document parsing via user-defined template
Создайте пользовательский шаблон с полем данных и определениями таблиц.
PANSE DOCUMENTS через пользовательские шаблоны и извлечь данные, такие как счета, таблицы и т. Д.
Supports extraction of various text elements, such as:
- извлечение простого текста
- Извлечение форматированного текста как простой текст, HTML или Markdown (MD)
- Структурированное извлечение текста в форме XML
- Извлечение области текста в соответствии с конкретными координатами, стилем текста
- Извлечь текст вокруг (в контексте) конкретного слова
Supports various extraction modes, such as:
- Точный режим извлечения текста: режим извлечения текста по умолчанию с наилучшим возможным качеством текста.
- Режим извлечения необработанного текста: режим извлечения с лучшей производительностью, но качество текста не так точнее, как вышеупомянутый режим.
Извлеките текст всего документа или извлеките только нужную страницу документа.
Возможность поиска документов с использованием конкретных ключевых слов или через регулярное выражение.
Поддерживает извлечение метаданных и извлечение изображений из Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; и другие типы документов.
извлечь содержимое (TOC) из Microsoft Office & Reg; Word & Reg; & EPUB электронные книги.
Возможность извлекать данные из контейнеров (архивы), таких как портфели ZIP, PDF, контейнеры OST и т. Д.
Способность итерации через поля формы и извлекать данные формы PDF.
Извлечь данные из баз данных (например, SQLite) через JDBC.
Извлечение информации из Microsoft OneNote & Reg; записные книжки.
Извлеките все гиперсвязки из всего документа или из конкретной страницы или только из конкретной области страницы.
Поддерживаемые форматы файлов файлов файлов документов
Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
openoffice writer & reg ;: ODT/OTT/
Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: Числа
Microsoft PowerPoint & Reg ;: ppt/pps/pot/pptx/pptm/potx/potm/ppsx/ppsm
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Почтовое сообщение: emlx
Microsoft OneNote & Reg ;: One
Фиксированный макет: pdf
postscript: ps
markup: xhtml/mhtml/md/xml
Электронная книга: CHM/EPUB/FB2
Архив: Zip/rar/tar/gz/bz2
Изображение: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: svg/svgz
Adobe Photoshop & Reg ;: psd
Медицинская визуализация: dicom
метаданные: EMF/WMF
База данных: jdbc
Для получения подробной информации и ограничений, пожалуйста, посетите, Поддерживаемые форматы документов.
Системные Требования
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, Centos и другие
- java версии:
j2se 7.0 (1.7)
,j2se 8.0 (1.8)
или выше (например, Java 10)
GroupDocs.parser для Java не требует установки внешнего программного обеспечения или стороннего инструмента. Просто следуйте по одному из способов, как описано в Установка и конфигурация.
Начать
GroupDocs размещает все API Java на GroupDocs Repository. Вы можете легко использовать GroupDocs.parser для Java API непосредственно в ваших проектах Maven с простыми конфигурациями. Для получения подробных инструкций, пожалуйста, посетите страницу документации Установка из репозитория GroupDocs с использованием Maven.
Пример кода Java для извлечения текста со конкретной страницы PDF
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия
Version | Release Date |
---|---|
22.11 | 30 ноября 2022 г. |
22.6 | 8 июня 2022 г. |
22.3 | 17 марта 2022 г. |
20.5 | 25 января 2022 г. |
20.12 | 25 января 2022 г. |
18.9 | 25 января 2022 г. |
18.11 | 25 января 2022 г. |
21.2 | 27 февраля 2021 г. |
20.8 | 19 августа 2020 г. |
20.6 | 30 июня 2020 г. |
20.3 | 1 апреля 2020 г. |
20.1 | 4 февраля 2020 г. |
19.11 | 3 декабря 2019 г. |
19.5 | 29 мая 2019 г. |
18.12 | 11 декабря 2018 г. |
18.10 | 10 октября 2018 г. |
18.7 | 3 июля 2018 г. |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation