<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>25.5</version>
</dependency>
</dependencies>repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '25.5')<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="25.5">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "25.5"Исключение текста и анализ Java High Code API
Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия
GroupDocsparser для Java-это локальный API, который позволяет вашим приложениям Java анализировать и извлекать данные из различных форматов файлов. Это позволяет вам извлекать гиперссылки, таблицы, штрих -коды, текст, изображения, а также извлечение данных из ZIP -архивов, архивов электронной почты, портфелей PDF и баз данных. GroupDocs.parser для Java может использоваться для определения пользовательских шаблонов, содержащих фиксированные, Regex и связанные позиции поля для точного извлечения данных.
Текстовые извлечения и диапазон Java Upi Features API
Document parsing via user-defined template
Создайте пользовательский шаблон с полем данных и определениями таблиц.
PANSE DOCUMENTS через пользовательские шаблоны и извлечь данные, такие как счета, таблицы и т. Д.
Supports extraction of various text elements, such as:
- извлечение простого текста
- Извлечение форматированного текста как простой текст, HTML или Markdown (MD)
- Структурированное извлечение текста в форме XML
- Извлечение области текста в соответствии с конкретными координатами, стилем текста
- Извлечь текст вокруг (в контексте) конкретного слова
Supports various extraction modes, such as:
- Точный режим извлечения текста: режим извлечения текста по умолчанию с наилучшим возможным качеством текста.
- Режим извлечения необработанного текста: режим извлечения с лучшей производительностью, но качество текста не так точнее, как вышеупомянутый режим.
Извлеките текст всего документа или извлеките только нужную страницу документа.
Возможность поиска документов с использованием конкретных ключевых слов или через регулярное выражение.
Поддерживает извлечение метаданных и извлечение изображений из Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; и другие типы документов.
извлечь содержимое (TOC) из Microsoft Office & Reg; Word & Reg; & EPUB электронные книги.
Возможность извлекать данные из контейнеров (архивы), таких как портфели ZIP, PDF, контейнеры OST и т. Д.
Способность итерации через поля формы и извлекать данные формы PDF.
Извлечь данные из баз данных (например, SQLite) через JDBC.
Извлечение информации из Microsoft OneNote & Reg; записные книжки.
Извлеките все гиперсвязки из всего документа или из конкретной страницы или только из конкретной области страницы.
Поддерживаемые форматы файлов файлов файлов документов
Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
openoffice writer & reg ;: ODT/OTT/
Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: Числа
Microsoft PowerPoint & Reg ;: ppt/pps/pot/pptx/pptm/potx/potm/ppsx/ppsm
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Почтовое сообщение: emlx
Microsoft OneNote & Reg ;: One
Фиксированный макет: pdf
postscript: ps
markup: xhtml/mhtml/md/xml
Электронная книга: CHM/EPUB/FB2
Архив: Zip/rar/tar/gz/bz2
Изображение: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: svg/svgz
Adobe Photoshop & Reg ;: psd
Медицинская визуализация: dicom
метаданные: EMF/WMF
База данных: jdbc
Для получения подробной информации и ограничений, пожалуйста, посетите, Поддерживаемые форматы документов.
Системные Требования
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, Centos и другие
- java версии:
j2se 7.0 (1.7),j2se 8.0 (1.8)или выше (например, Java 10)
GroupDocs.parser для Java не требует установки внешнего программного обеспечения или стороннего инструмента. Просто следуйте по одному из способов, как описано в Установка и конфигурация.
Начать
GroupDocs размещает все API Java на GroupDocs Repository. Вы можете легко использовать GroupDocs.parser для Java API непосредственно в ваших проектах Maven с простыми конфигурациями. Для получения подробных инструкций, пожалуйста, посетите страницу документации Установка из репозитория GroupDocs с использованием Maven.
Пример кода Java для извлечения текста со конкретной страницы PDF
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия
| Version | Release Date |
|---|---|
| 25.5 | 4 мая 2025 г. |
| 24.6 | 27 июня 2024 г. |
| 24.3 | 29 марта 2024 г. |
| 23.11 | 24 ноября 2023 г. |
| 23.10 | 21 октября 2023 г. |
| 23.9 | 17 сентября 2023 г. |
| 23.2 | 1 марта 2023 г. |
| 22.11 | 30 ноября 2022 г. |
| 22.6 | 8 июня 2022 г. |
| 22.3 | 17 марта 2022 г. |
| 20.5 | 25 января 2022 г. |
| 20.12 | 25 января 2022 г. |
| 18.9 | 25 января 2022 г. |
| 18.11 | 25 января 2022 г. |
| 21.2 | 27 февраля 2021 г. |
| 20.8 | 19 августа 2020 г. |
| 20.6 | 30 июня 2020 г. |
| 20.3 | 1 апреля 2020 г. |
| 20.1 | 4 февраля 2020 г. |
| 19.11 | 3 декабря 2019 г. |
| 19.5 | 29 мая 2019 г. |
| 18.12 | 11 декабря 2018 г. |
| 18.10 | 10 октября 2018 г. |
| 18.7 | 3 июля 2018 г. |

