<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
テキスト抽出と解析Java High Code API
製品ページ | ドキュメント | デモ | APIリファレンス | 例 | ブログ | 無料サポート | 一時ライセンス
JavaのGroupDocsparserは、Javaアプリケーションがさまざまなタイプのファイル形式からデータを解析および抽出できるようにするオンプレミスAPIです。これにより、ZIPアーカイブ、電子メールアーカイブ、PDFポートフォリオ、およびデータベースからのデータ抽出だけでなく、ハイパーリンク、テーブル、バーコード、テキスト、画像、およびデータベースから抽出できます。 GroupDocs.Parser for Javaを使用して、正確なデータ抽出のために固定、正規表現、およびリンクされたフィールド位置を含むユーザー定義のテンプレートを定義できます。
テキスト抽出と解析JavaオンプレミスAPI機能
Document parsing via user-defined template
- データフィールドとテーブルの定義を備えたユーザー定義のテンプレートを作成します。
-ユーザー定義のテンプレートを介してドキュメントを解析し、請求書、テーブルなどのデータを抽出します。
Supports extraction of various text elements, such as:
- プレーンテキスト抽出
- 単純なテキスト、HTMLまたはマークダウン(MD)としてフォーマットされたテキスト抽出
- XML形式の構造化されたテキスト抽出
- 特定の座標、テキストスタイルに従ってテキストエリア抽出
- 特定の単語の周りに(コンテキストで)テキストを抽出します
Supports various extraction modes, such as:
- 正確なテキスト抽出モード:可能な限り最高のテキスト品質を備えたデフォルトのテキスト抽出モード。
- 生のテキスト抽出モード:パフォーマンスが向上した抽出モードですが、テキストの品質は前述モードほど正確ではありません。
ドキュメント全体のテキストを抽出するか、目的のドキュメントページのみを抽出します。
特定のキーワードを使用して、または正規表現を介してドキュメントを検索する機能。 -MicrosoftWord&Reg;、Excel&Reg;、PowerPoint&Reg;、PDF&Reg;からのメタデータ抽出と画像抽出をサポートします。 &その他のドキュメントタイプ。 -Microsoft Office&Regから目次(TOC)を抽出します。 Word&Reg; &epub ebookフォーマット。
ZIP、PDFポートフォリオ、OSTコンテナなど、コンテナ(アーカイブ)からデータを抽出する機能。
フォームフィールドを繰り返し、PDFフォームデータを抽出する機能。
-JDBC経由のデータベースからデータを抽出します(例:sqlite)。 -Microsoft Onenote&Reg;から情報を抽出しますノートブック。
- ドキュメント全体、特定のページ、または特定のページ領域のみからすべてのハイパーリンクを抽出します。
サポートされているドキュメントパーサーファイル形式
Microsoft Word&Reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&Reg;: odt/ott/
Microsoft Excel&Reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLA
OpenOffice calc&reg;: ods/ots/csv
Apple&Reg; iWork: numbers
Microsoft PowerPoint&Reg;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&Reg;: odp/otp
Microsoft Outlook&Reg;: PST/OST/EML/MSG
Apple&Reg;メールメッセージ: emlx
Microsoft Onenote&Reg;: One
修正レイアウト: PDF
postscript: ps
マークアップ: xhtml/mhtml/md/xml
電子ブック: CHM/EPUB/FB2
アーカイブ: zip/rar/tar/gz/bz2
画像: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
ベクトル: svg/svgz
Adobe Photoshop&Reg;: psd
医療イメージング: dicom
メタデータ: emf/wmf
データベース: JDBC
詳細と制限については、サポートされているドキュメント形式をご覧ください。
システム要求
- Microsoft Windows Windows Desktop&Server(x86、x64)、Microsoft Azure
- macOS: Mac OS X
- linux: ubuntu、opensuse、centosなど
- Javaバージョン:
J2SE 7.0(1.7)
、J2SE 8.0(1.8)
以下(たとえばJava 10)
GroupDocs.Parser for Javaは、外部ソフトウェアまたはサードパーティのツールをインストールする必要はありません。 インストールと構成に記載されている方法の1つに従ってください。
始めましょう
GroupDocsは、GroupDocsリポジトリですべてのJava APIをホストしています。簡単な構成を使用して、MavenプロジェクトでGroupDocs.ParserをJava APIに簡単に使用できます。詳細な手順については、Mavenを使用したGroupDocsリポジトリからのインストールドキュメントページをご覧ください。
特定のPDFページからのテキスト抽出のためのJavaコードのサンプル
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
製品ページ | ドキュメント | デモ | APIリファレンス | 例 | ブログ | 無料サポート | 一時ライセンス
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation