GroupDocs.Parser 22.11

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>

copied!

repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')

copied!

<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>

copied!

resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"

copied!

Исключение текста и анализ Java High Code API

GroupDocsparser для Java-это локальный API, который позволяет вашим приложениям Java анализировать и извлекать данные из различных форматов файлов. Это позволяет вам извлекать гиперссылки, таблицы, штрих -коды, текст, изображения, а также извлечение данных из ZIP -архивов, архивов электронной почты, портфелей PDF и баз данных. GroupDocs.parser для Java может использоваться для определения пользовательских шаблонов, содержащих фиксированные, Regex и связанные позиции поля для точного извлечения данных.

Текстовые извлечения и диапазон Java Upi Features API

Document parsing via user-defined template
- Создайте пользовательский шаблон с полем данных и определениями таблиц.
- PANSE DOCUMENTS через пользовательские шаблоны и извлечь данные, такие как счета, таблицы и т. Д.
Supports extraction of various text elements, such as:
- извлечение простого текста
- Извлечение форматированного текста как простой текст, HTML или Markdown (MD)
- Структурированное извлечение текста в форме XML
- Извлечение области текста в соответствии с конкретными координатами, стилем текста
- Извлечь текст вокруг (в контексте) конкретного слова
Supports various extraction modes, such as:
- Точный режим извлечения текста: режим извлечения текста по умолчанию с наилучшим возможным качеством текста.
- Режим извлечения необработанного текста: режим извлечения с лучшей производительностью, но качество текста не так точнее, как вышеупомянутый режим.
Извлеките текст всего документа или извлеките только нужную страницу документа.
Возможность поиска документов с использованием конкретных ключевых слов или через регулярное выражение.
Поддерживает извлечение метаданных и извлечение изображений из Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; и другие типы документов.
извлечь содержимое (TOC) из Microsoft Office & Reg; Word & Reg; & EPUB электронные книги.
Возможность извлекать данные из контейнеров (архивы), таких как портфели ZIP, PDF, контейнеры OST и т. Д.
Способность итерации через поля формы и извлекать данные формы PDF.
Извлечь данные из баз данных (например, SQLite) через JDBC.
Извлечение информации из Microsoft OneNote & Reg; записные книжки.
Извлеките все гиперсвязки из всего документа или из конкретной страницы или только из конкретной области страницы.

Поддерживаемые форматы файлов файлов файлов документов

Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
openoffice writer & reg ;: ODT/OTT/ Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: Числа
Microsoft PowerPoint & Reg ;: ppt/pps/pot/pptx/pptm/potx/potm/ppsx/ppsm
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Почтовое сообщение: emlx
Microsoft OneNote & Reg ;: One
Фиксированный макет: pdf
postscript: ps
markup: xhtml/mhtml/md/xml
Электронная книга: CHM/EPUB/FB2
Архив: Zip/rar/tar/gz/bz2
Изображение: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: svg/svgz
Adobe Photoshop & Reg ;: psd
Медицинская визуализация: dicom
метаданные: EMF/WMF
База данных: jdbc

Для получения подробной информации и ограничений, пожалуйста, посетите, Поддерживаемые форматы документов.

Системные Требования

Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
macOS: Mac OS X
Linux: Ubuntu, OpenSuse, Centos и другие
java версии: j2se 7.0 (1.7), j2se 8.0 (1.8) или выше (например, Java 10)

GroupDocs.parser для Java не требует установки внешнего программного обеспечения или стороннего инструмента. Просто следуйте по одному из способов, как описано в Установка и конфигурация.

Начать

GroupDocs размещает все API Java на GroupDocs Repository. Вы можете легко использовать GroupDocs.parser для Java API непосредственно в ваших проектах Maven с простыми конфигурациями. Для получения подробных инструкций, пожалуйста, посетите страницу документации Установка из репозитория GroupDocs с использованием Maven.

Пример кода Java для извлечения текста со конкретной страницы PDF

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Version	Release Date
22.11	30 ноября 2022 г.
22.6	8 июня 2022 г.
22.3	17 марта 2022 г.
20.5	25 января 2022 г.
20.12	25 января 2022 г.
18.9	25 января 2022 г.
18.11	25 января 2022 г.
21.2	27 февраля 2021 г.
20.8	19 августа 2020 г.
20.6	30 июня 2020 г.
20.3	1 апреля 2020 г.
20.1	4 февраля 2020 г.
19.11	3 декабря 2019 г.
19.5	29 мая 2019 г.
18.12	11 декабря 2018 г.
18.10	10 октября 2018 г.
18.7	3 июля 2018 г.