<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

文本提取和解析Java高码API

main-banner

产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可

Java的GroupDocsparser是本地API,它使您的Java应用程序可以从各种文件格式中解析和提取数据。它使您可以提取超链接,表,条形码,文本,图像以及从邮政编码,电子邮件档案,PDF投资组合和数据库中提取数据。 Java的groupDocs.Parser可用于定义包含固定,正则和链接的字段位置的用户定义模板,以进行准确的数据提取。

文本提取和解析Java本地API功能

  • Document parsing via user-defined template

    • 创建具有数据字段和表定义的用户定义模板。

    • 通过用户定义的模板解析文档并提取数据,例如发票,表格等。

  • Supports extraction of various text elements, such as:

    • 纯文本提取
    • 格式的文本提取作为简单文本,HTML或Markdown(MD)
    • XML形式的结构化文本提取
    • 根据特定坐标,文本样式提取文本区域提取
    • 提取特定词的文本(在)周围
  • Supports various extraction modes, such as:

    • 准确的文本提取模式:具有最佳文本质量的默认文本提取模式。
    • 原始文本提取模式:具有更好性能的提取模式,但文本质量不如上述模式准确。
  • 提取整个文档的文本或仅提取所需的文档页面。

  • 能够使用特定关键字或通过正则表达式搜索文档。

  • 支持Microsoft Word&reg;,excel&reg;,PowerPoint&reg;,PDF&reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg; reg;; - 支持元数据提取和图像提取。和其他文档类型。

  • 从Microsoft Office&Reg提取目录(TOC); word&reg; &Epub电子书格式。

  • 能够从容器(档案)中提取数据,例如ZIP,PDF投资组合,OST容器等。

  • 能够通过表单字段迭代并提取PDF表单数据。

  • 从数据库中提取数据(例如sqlite)通过JDBC。

  • 从Microsoft OneNote&Reg中提取信息;笔记本。

  • 从整个文档或特定页面或特定页面区域中提取所有超链接。

支持的文档解析器文件格式

Microsoft Word&reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&reg;: ODT/OTT/ Microsoft Excel&reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
OpenOffice Calc&reg;: ODS/OTS/CSV
**Apple&Reg; iWork:**数字
Microsoft PowerPoint&reg;: PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&reg;: ODP/OTP
Microsoft Outlook&reg;: PST/OST/EML/MSG
Apple&Reg;邮件: emlx
**Microsoft OneNote&reg;:**一个
固定布局: pdf
后记: ps
标记: XHTML/MHTML/MD/XML
电子书: chm/epub/fb2
存档: zip/rar/tar/gz/bz2
图像: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tif/tiff/djvu/j2k/webp \
矢量: svg/svgz
Adob​​e Photoshop&reg;: PSD
医学成像: dicom
元数据: emf/wmf
数据库: JDBC

有关详细信息和限制,请访问支持的文档格式

系统要求

  • Microsoft Windows: Windows Desktop&Server(X86,X64),Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu,Opensuse,Centos等
  • Java版本:``J2SE 7.0(1.7)J2SE 8.0(1.8)`或更高(例如Java 10)

Java的GroupDocs.Parser不需要安装任何外部软件或第三方工具。只需按照安装和配置中描述的方式之一即可。

开始

GroupDocs在GroupDocs存储库托管所有Java API。您可以在Maven项目中直接使用简单配置的Maven项目中轻松地将Java API用于Java API。有关详细说明,请访问使用Maven从GroupDocs存储库安装文档页面。

示例Java代码用于从特定PDF页面提取文本的代码

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可

VersionRelease Date
22.112022年11月30日
22.62022年6月8日
22.32022年3月17日
20.52022年1月25日
20.122022年1月25日
18.92022年1月25日
18.112022年1月25日
21.22021年2月27日
20.82020年8月19日
20.62020年6月30日
20.32020年4月1日
20.12020年2月4日
19.112019年12月3日
19.52019年5月29日
18.122018年12月11日
18.102018年10月10日
18.72018年7月3日