GroupDocs.Parser for Java 22.11

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

copied!

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')

copied!

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
    <artifact name="groupdocs-parser" ext="jar"/>
</dependency>

copied!

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"

copied!

文本提取和解析Java高码API

产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可

Java的GroupDocsparser是本地API，它使您的Java应用程序可以从各种文件格式中解析和提取数据。它使您可以提取超链接，表，条形码，文本，图像以及从邮政编码，电子邮件档案，PDF投资组合和数据库中提取数据。 Java的groupDocs.Parser可用于定义包含固定，正则和链接的字段位置的用户定义模板，以进行准确的数据提取。

文本提取和解析Java本地API功能

文档通过用户定义的模板解析
- 创建具有数据字段和表定义的用户定义模板。
- 通过用户定义的模板解析文档并提取数据，例如发票，表格等。
支持提取各种文本元素，例如：
- 纯文本提取
- 格式的文本提取作为简单文本，HTML或Markdown（MD）
- XML形式的结构化文本提取
- 根据特定坐标，文本样式提取文本区域提取
- 提取特定词的文本（在）周围
支持各种提取模式，例如：
- 准确的文本提取模式：具有最佳文本质量的默认文本提取模式。
- 原始文本提取模式：具有更好性能的提取模式，但文本质量不如上述模式准确。
提取整个文档的文本或仅提取所需的文档页面。
能够使用特定关键字或通过正则表达式搜索文档。
支持Microsoft Word＆reg;，excel＆reg;，PowerPoint＆reg;，PDF＆reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg;; - 支持元数据提取和图像提取。和其他文档类型。
从Microsoft Office＆Reg提取目录（TOC）； word＆reg; ＆Epub电子书格式。
能够从容器（档案）中提取数据，例如ZIP，PDF投资组合，OST容器等。
能够通过表单字段迭代并提取PDF表单数据。
从数据库中提取数据（例如SQLITE）通过JDBC。
从Microsoft OneNote＆Reg中提取信息；笔记本。
从整个文档或特定页面或特定页面区域中提取所有超链接。

支持的文档解析器文件格式

Microsoft Word＆reg;： doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer＆reg;： ODT/OTT/ Microsoft Excel＆reg;： XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
OpenOffice Calc＆reg;： ODS/OTS/CSV
**Apple＆Reg; iWork：**数字
Microsoft PowerPoint＆reg;： PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress＆reg;： ODP/OTP
Microsoft Outlook＆reg;： PST/OST/EML/MSG
Apple＆Reg;邮件： emlx
**Microsoft OneNote＆reg;：**一个
固定布局： pdf
后记： ps
标记： XHTML/MHTML/MD/XML
电子书： chm/epub/fb2
存档： zip/rar/tar/gz/bz2
图像： bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tif/tiff/djvu/j2k/webp \
矢量： svg/svgz
Adobe Photoshop＆reg;： PSD
医学成像： dicom
元数据： emf/wmf
数据库： JDBC

有关详细信息和限制，请访问支持的文档格式。

系统要求

Microsoft Windows： Windows Desktop＆Server（X86，X64），Microsoft Azure
macOS： Mac OS X
Linux： Ubuntu，Opensuse，Centos等
Java版本：``J2SE 7.0（1.7），J2SE 8.0（1.8）`或更高（例如Java 10）

Java的GroupDocs.Parser不需要安装任何外部软件或第三方工具。只需按照安装和配置中描述的方式之一。

开始

GroupDocs在GroupDocs存储库托管所有Java API。您可以在Maven项目中直接使用简单配置的Maven项目中轻松地将Java API用于Java API。有关详细说明，请访问使用Maven从GroupDocs存储库安装文档页面。

示例Java代码用于从特定PDF页面提取文本的代码

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可

Version	Release Date
25.5	2025年5月4日
24.6	2024年6月27日
24.3	2024年3月29日
23.11	2023年11月24日
23.10	2023年10月21日
23.9	2023年9月17日
23.2	2023年3月1日
22.11	2022年11月30日
22.6	2022年6月8日
22.3	2022年3月17日
20.5	2022年1月25日
20.12	2022年1月25日
18.9	2022年1月25日
18.11	2022年1月25日
21.2	2021年2月27日
20.8	2020年8月19日
20.6	2020年6月30日
20.3	2020年4月1日
20.1	2020年2月4日
19.11	2019年12月3日
19.5	2019年5月29日
18.12	2018年12月11日
18.10	2018年10月10日
18.7	2018年7月3日

GroupDocs.Parser for Java 22.11 Release Notes

File	Classifier	Size
groupdocs-parser-22.11-javadoc.jar	javadoc	473 KB
groupdocs-parser-22.11.jar		146 MB
groupdocs-parser-22.11.pom		2 KB