<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
文本提取和解析Java高码API
产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可
Java的GroupDocsparser是本地API,它使您的Java应用程序可以从各种文件格式中解析和提取数据。它使您可以提取超链接,表,条形码,文本,图像以及从邮政编码,电子邮件档案,PDF投资组合和数据库中提取数据。 Java的groupDocs.Parser可用于定义包含固定,正则和链接的字段位置的用户定义模板,以进行准确的数据提取。
文本提取和解析Java本地API功能
文档通过用户定义的模板解析
创建具有数据字段和表定义的用户定义模板。
通过用户定义的模板解析文档并提取数据,例如发票,表格等。
支持提取各种文本元素,例如:
- 纯文本提取
- 格式的文本提取作为简单文本,HTML或Markdown(MD)
- XML形式的结构化文本提取
- 根据特定坐标,文本样式提取文本区域提取
- 提取特定词的文本(在)周围
支持各种提取模式,例如:
- 准确的文本提取模式:具有最佳文本质量的默认文本提取模式。
- 原始文本提取模式:具有更好性能的提取模式,但文本质量不如上述模式准确。
提取整个文档的文本或仅提取所需的文档页面。
能够使用特定关键字或通过正则表达式搜索文档。
支持Microsoft Word&reg;,excel&reg;,PowerPoint&reg;,PDF&reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg;; - 支持元数据提取和图像提取。和其他文档类型。
从Microsoft Office&Reg提取目录(TOC); word&reg; &Epub电子书格式。
能够从容器(档案)中提取数据,例如ZIP,PDF投资组合,OST容器等。
能够通过表单字段迭代并提取PDF表单数据。
从数据库中提取数据(例如SQLITE)通过JDBC。
从Microsoft OneNote&Reg中提取信息;笔记本。
从整个文档或特定页面或特定页面区域中提取所有超链接。
支持的文档解析器文件格式
Microsoft Word&reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&reg;: ODT/OTT/
Microsoft Excel&reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
OpenOffice Calc&reg;: ODS/OTS/CSV
**Apple&Reg; iWork:**数字
Microsoft PowerPoint&reg;: PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&reg;: ODP/OTP
Microsoft Outlook&reg;: PST/OST/EML/MSG
Apple&Reg;邮件: emlx
**Microsoft OneNote&reg;:**一个
固定布局: pdf
后记: ps
标记: XHTML/MHTML/MD/XML
电子书: chm/epub/fb2
存档: zip/rar/tar/gz/bz2
图像: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tif/tiff/djvu/j2k/webp \
矢量: svg/svgz
Adobe Photoshop&reg;: PSD
医学成像: dicom
元数据: emf/wmf
数据库: JDBC
有关详细信息和限制,请访问支持的文档格式。
系统要求
- Microsoft Windows: Windows Desktop&Server(X86,X64),Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu,Opensuse,Centos等
- Java版本:``J2SE 7.0(1.7)
,
J2SE 8.0(1.8)`或更高(例如Java 10)
Java的GroupDocs.Parser不需要安装任何外部软件或第三方工具。只需按照安装和配置中描述的方式之一。
开始
GroupDocs在GroupDocs存储库托管所有Java API。您可以在Maven项目中直接使用简单配置的Maven项目中轻松地将Java API用于Java API。有关详细说明,请访问使用Maven从GroupDocs存储库安装文档页面。
示例Java代码用于从特定PDF页面提取文本的代码
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Version | Release Date |
---|---|
25.5 | 2025年5月4日 |
24.6 | 2024年6月27日 |
24.3 | 2024年3月29日 |
23.11 | 2023年11月24日 |
23.10 | 2023年10月21日 |
23.9 | 2023年9月17日 |
23.2 | 2023年3月1日 |
22.11 | 2022年11月30日 |
22.6 | 2022年6月8日 |
22.3 | 2022年3月17日 |
20.5 | 2022年1月25日 |
20.12 | 2022年1月25日 |
18.9 | 2022年1月25日 |
18.11 | 2022年1月25日 |
21.2 | 2021年2月27日 |
20.8 | 2020年8月19日 |
20.6 | 2020年6月30日 |
20.3 | 2020年4月1日 |
20.1 | 2020年2月4日 |
19.11 | 2019年12月3日 |
19.5 | 2019年5月29日 |
18.12 | 2018年12月11日 |
18.10 | 2018年10月10日 |
18.7 | 2018年7月3日 |
File | Classifier | Size |
---|---|---|
groupdocs-parser-22.11-javadoc.jar | javadoc | 473 KB |
groupdocs-parser-22.11.jar | 146 MB | |
groupdocs-parser-22.11.pom | 2 KB |