<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
文本提取和解析Java高码API
产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可
Java的GroupDocsparser是本地API,它使您的Java应用程序可以从各种文件格式中解析和提取数据。它使您可以提取超链接,表,条形码,文本,图像以及从邮政编码,电子邮件档案,PDF投资组合和数据库中提取数据。 Java的groupDocs.Parser可用于定义包含固定,正则和链接的字段位置的用户定义模板,以进行准确的数据提取。
文本提取和解析Java本地API功能
Document parsing via user-defined template
创建具有数据字段和表定义的用户定义模板。
通过用户定义的模板解析文档并提取数据,例如发票,表格等。
Supports extraction of various text elements, such as:
- 纯文本提取
- 格式的文本提取作为简单文本,HTML或Markdown(MD)
- XML形式的结构化文本提取
- 根据特定坐标,文本样式提取文本区域提取
- 提取特定词的文本(在)周围
Supports various extraction modes, such as:
- 准确的文本提取模式:具有最佳文本质量的默认文本提取模式。
- 原始文本提取模式:具有更好性能的提取模式,但文本质量不如上述模式准确。
提取整个文档的文本或仅提取所需的文档页面。
能够使用特定关键字或通过正则表达式搜索文档。
支持Microsoft Word&reg;,excel&reg;,PowerPoint&reg;,PDF&reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg;; - 支持元数据提取和图像提取。和其他文档类型。
从Microsoft Office&Reg提取目录(TOC); word&reg; &Epub电子书格式。
能够从容器(档案)中提取数据,例如ZIP,PDF投资组合,OST容器等。
能够通过表单字段迭代并提取PDF表单数据。
从数据库中提取数据(例如sqlite)通过JDBC。
从Microsoft OneNote&Reg中提取信息;笔记本。
从整个文档或特定页面或特定页面区域中提取所有超链接。
支持的文档解析器文件格式
Microsoft Word&reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&reg;: ODT/OTT/
Microsoft Excel&reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
OpenOffice Calc&reg;: ODS/OTS/CSV
**Apple&Reg; iWork:**数字
Microsoft PowerPoint&reg;: PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&reg;: ODP/OTP
Microsoft Outlook&reg;: PST/OST/EML/MSG
Apple&Reg;邮件: emlx
**Microsoft OneNote&reg;:**一个
固定布局: pdf
后记: ps
标记: XHTML/MHTML/MD/XML
电子书: chm/epub/fb2
存档: zip/rar/tar/gz/bz2
图像: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tif/tiff/djvu/j2k/webp \
矢量: svg/svgz
Adobe Photoshop&reg;: PSD
医学成像: dicom
元数据: emf/wmf
数据库: JDBC
有关详细信息和限制,请访问支持的文档格式。
系统要求
- Microsoft Windows: Windows Desktop&Server(X86,X64),Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu,Opensuse,Centos等
- Java版本:``J2SE 7.0(1.7)
,
J2SE 8.0(1.8)`或更高(例如Java 10)
Java的GroupDocs.Parser不需要安装任何外部软件或第三方工具。只需按照安装和配置中描述的方式之一即可。
开始
GroupDocs在GroupDocs存储库托管所有Java API。您可以在Maven项目中直接使用简单配置的Maven项目中轻松地将Java API用于Java API。有关详细说明,请访问使用Maven从GroupDocs存储库安装文档页面。
示例Java代码用于从特定PDF页面提取文本的代码
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation