<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

テキスト抽出と解析Java High Code API

main-banner

製品ページ | ドキュメント | デモ | APIリファレンス | | ブログ | 無料サポート | 一時ライセンス

JavaのGroupDocsparserは、Javaアプリケーションがさまざまなタイプのファイル形式からデータを解析および抽出できるようにするオンプレミスAPIです。これにより、ZIPアーカイブ、電子メールアーカイブ、PDFポートフォリオ、およびデータベースからのデータ抽出だけでなく、ハイパーリンク、テーブル、バーコード、テキスト、画像、およびデータベースから抽出できます。 GroupDocs.Parser for Javaを使用して、正確なデータ抽出のために固定、正規表現、およびリンクされたフィールド位置を含むユーザー定義のテンプレートを定義できます。

テキスト抽出と解析JavaオンプレミスAPI機能

  • Document parsing via user-defined template

    • データフィールドとテーブルの定義を備えたユーザー定義のテンプレートを作成します。

    -ユーザー定義のテンプレートを介してドキュメントを解析し、請求書、テーブルなどのデータを抽出します。

  • Supports extraction of various text elements, such as:

    • プレーンテキスト抽出
    • 単純なテキスト、HTMLまたはマークダウン(MD)としてフォーマットされたテキスト抽出
    • XML形式の構造化されたテキスト抽出
    • 特定の座標、テキストスタイルに従ってテキストエリア抽出
    • 特定の単語の周りに(コンテキストで)テキストを抽出します
  • Supports various extraction modes, such as:

    • 正確なテキスト抽出モード:可能な限り最高のテキスト品質を備えたデフォルトのテキスト抽出モード。
    • 生のテキスト抽出モード:パフォーマンスが向上した抽出モードですが、テキストの品質は前述モードほど正確ではありません。
  • ドキュメント全体のテキストを抽出するか、目的のドキュメントページのみを抽出します。

  • 特定のキーワードを使用して、または正規表現を介してドキュメントを検索する機能。 -MicrosoftWord&Reg;、Excel&Reg;、PowerPoint&Reg;、PDF&Reg;からのメタデータ抽出と画像抽出をサポートします。 &その他のドキュメントタイプ。 -Microsoft Office&Regから目次(TOC)を抽出します。 Word&Reg; &epub ebookフォーマット。

  • ZIP、PDFポートフォリオ、OSTコンテナなど、コンテナ(アーカイブ)からデータを抽出する機能。

  • フォームフィールドを繰り返し、PDFフォームデータを抽出する機能。

-JDBC経由のデータベースからデータを抽出します(例:sqlite)。 -Microsoft Onenote&Reg;から情報を抽出しますノートブック。

  • ドキュメント全体、特定のページ、または特定のページ領域のみからすべてのハイパーリンクを抽出します。

サポートされているドキュメントパーサーファイル形式

Microsoft Word&Reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&Reg;: odt/ott/ Microsoft Excel&Reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLA
OpenOffice calc&reg;: ods/ots/csv
Apple&Reg; iWork: numbers
Microsoft PowerPoint&Reg;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&Reg;: odp/otp
Microsoft Outlook&Reg;: PST/OST/EML/MSG
Apple&Reg;メールメッセージ: emlx
Microsoft Onenote&Reg;: One
修正レイアウト: PDF
postscript: ps
マークアップ: xhtml/mhtml/md/xml
電子ブック: CHM/EPUB/FB2
アーカイブ: zip/rar/tar/gz/bz2
画像: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
ベクトル: svg/svgz
Adob​​e Photoshop&Reg;: psd
医療イメージング: dicom
メタデータ: emf/wmf
データベース: JDBC

詳細と制限については、サポートされているドキュメント形式をご覧ください。

システム要求

  • Microsoft Windows Windows Desktop&Server(x86、x64)、Microsoft Azure
  • macOS: Mac OS X
  • linux: ubuntu、opensuse、centosなど
  • Javaバージョン: J2SE 7.0(1.7)J2SE 8.0(1.8)以下(たとえばJava 10)

GroupDocs.Parser for Javaは、外部ソフトウェアまたはサードパーティのツールをインストールする必要はありません。 インストールと構成に記載されている方法の1つに従ってください。

始めましょう

GroupDocsは、GroupDocsリポジトリですべてのJava APIをホストしています。簡単な構成を使用して、MavenプロジェクトでGroupDocs.ParserをJava APIに簡単に使用できます。詳細な手順については、Mavenを使用したGroupDocsリポジトリからのインストールドキュメントページをご覧ください。

特定のPDFページからのテキスト抽出のためのJavaコードのサンプル

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

製品ページ | ドキュメント | デモ | APIリファレンス | | ブログ | 無料サポート | 一時ライセンス

VersionRelease Date
22.112022年11月30日
22.62022年6月8日
22.32022年3月17日
20.52022年1月25日
20.122022年1月25日
18.92022年1月25日
18.112022年1月25日
21.22021年2月27日
20.82020年8月19日
20.62020年6月30日
20.32020年4月1日
20.12020年2月4日
19.112019年12月3日
19.52019年5月29日
18.122018年12月11日
18.102018年10月10日
18.72018年7月3日