<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Исключение текста и анализ Java High Code API

main-banner

Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия

GroupDocsparser для Java-это локальный API, который позволяет вашим приложениям Java анализировать и извлекать данные из различных форматов файлов. Это позволяет вам извлекать гиперссылки, таблицы, штрих -коды, текст, изображения, а также извлечение данных из ZIP -архивов, архивов электронной почты, портфелей PDF и баз данных. GroupDocs.parser для Java может использоваться для определения пользовательских шаблонов, содержащих фиксированные, Regex и связанные позиции поля для точного извлечения данных.

Текстовые извлечения и диапазон Java Upi Features API

  • Document parsing via user-defined template

    • Создайте пользовательский шаблон с полем данных и определениями таблиц.

    • PANSE DOCUMENTS через пользовательские шаблоны и извлечь данные, такие как счета, таблицы и т. Д.

  • Supports extraction of various text elements, such as:

    • извлечение простого текста
    • Извлечение форматированного текста как простой текст, HTML или Markdown (MD)
    • Структурированное извлечение текста в форме XML
    • Извлечение области текста в соответствии с конкретными координатами, стилем текста
    • Извлечь текст вокруг (в контексте) конкретного слова
  • Supports various extraction modes, such as:

    • Точный режим извлечения текста: режим извлечения текста по умолчанию с наилучшим возможным качеством текста.
    • Режим извлечения необработанного текста: режим извлечения с лучшей производительностью, но качество текста не так точнее, как вышеупомянутый режим.
  • Извлеките текст всего документа или извлеките только нужную страницу документа.

  • Возможность поиска документов с использованием конкретных ключевых слов или через регулярное выражение.

  • Поддерживает извлечение метаданных и извлечение изображений из Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; и другие типы документов.

  • извлечь содержимое (TOC) из Microsoft Office & Reg; Word & Reg; & EPUB электронные книги.

  • Возможность извлекать данные из контейнеров (архивы), таких как портфели ZIP, PDF, контейнеры OST и т. Д.

  • Способность итерации через поля формы и извлекать данные формы PDF.

  • Извлечь данные из баз данных (например, SQLite) через JDBC.

  • Извлечение информации из Microsoft OneNote & Reg; записные книжки.

  • Извлеките все гиперсвязки из всего документа или из конкретной страницы или только из конкретной области страницы.

Поддерживаемые форматы файлов файлов файлов документов

Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
openoffice writer & reg ;: ODT/OTT/ Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: Числа
Microsoft PowerPoint & Reg ;: ppt/pps/pot/pptx/pptm/potx/potm/ppsx/ppsm
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Почтовое сообщение: emlx
Microsoft OneNote & Reg ;: One
Фиксированный макет: pdf
postscript: ps
markup: xhtml/mhtml/md/xml
Электронная книга: CHM/EPUB/FB2
Архив: Zip/rar/tar/gz/bz2
Изображение: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: svg/svgz
Adobe Photoshop & Reg ;: psd
Медицинская визуализация: dicom
метаданные: EMF/WMF
База данных: jdbc

Для получения подробной информации и ограничений, пожалуйста, посетите, Поддерживаемые форматы документов.

Системные Требования

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu, OpenSuse, Centos и другие
  • java версии: j2se 7.0 (1.7), j2se 8.0 (1.8) или выше (например, Java 10)

GroupDocs.parser для Java не требует установки внешнего программного обеспечения или стороннего инструмента. Просто следуйте по одному из способов, как описано в Установка и конфигурация.

Начать

GroupDocs размещает все API Java на GroupDocs Repository. Вы можете легко использовать GroupDocs.parser для Java API непосредственно в ваших проектах Maven с простыми конфигурациями. Для получения подробных инструкций, пожалуйста, посетите страницу документации Установка из репозитория GroupDocs с использованием Maven.

Пример кода Java для извлечения текста со конкретной страницы PDF

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Страница продукта | Док | Демо | Ссылка на API | Примеры | Блог | Бесплатная поддержка | Временная лицензия

VersionRelease Date
22.1130 ноября 2022 г.
22.68 июня 2022 г.
22.317 марта 2022 г.
20.525 января 2022 г.
20.1225 января 2022 г.
18.925 января 2022 г.
18.1125 января 2022 г.
21.227 февраля 2021 г.
20.819 августа 2020 г.
20.630 июня 2020 г.
20.31 апреля 2020 г.
20.14 февраля 2020 г.
19.113 декабря 2019 г.
19.529 мая 2019 г.
18.1211 декабря 2018 г.
18.1010 октября 2018 г.
18.73 июля 2018 г.