<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Extraction de texte et analyse Java High Code API
Page de produit | Docs | Démos | Référence de l’API | Exemples | Blog | Support gratuit | Licence temporaire
GroupDocsparser pour Java est une API sur site qui permet à vos applications Java d’analyser et d’extraire les données de différents types de formats de fichiers. Il vous permet d’extraire des hyperliens, des tables, des codes-barres, du texte, des images, ainsi qu’une extraction de données à partir d’archives zip, d’archives de messagerie, de portefeuilles PDF et de bases de données. GroupDocs.Parser pour Java peut être utilisé pour définir des modèles définis par l’utilisateur contenant des positions de champ fixe, regex et liée pour une extraction précise de données.
Extraction de texte et analyser les fonctionnalités de l’API Java sur site
Document parsing via user-defined template
Créez un modèle défini par l’utilisateur avec le champ de données et les définitions de table.
Parse Documents via modèles définis par l’utilisateur et extraire des données, telles que les factures, les tables, etc.
Supports extraction of various text elements, such as:
- Extraction de texte brut
- Extraction de texte formatée comme texte simple, HTML ou Markdown (MD)
- Extraction de texte structurée dans la forme XML
- Extraction de la zone de texte selon des coordonnées spécifiques, style de texte
- Extraire du texte autour (dans le contexte de) un mot spécifique
Supports various extraction modes, such as:
- Mode d’extraction de texte précis: le mode d’extraction de texte par défaut avec la meilleure qualité de texte possible.
- Mode d’extraction de texte brut: le mode d’extraction avec de meilleures performances mais la qualité du texte n’est pas aussi précise que le mode susmentionné.
Extraire le texte de l’ensemble du document ou extraire uniquement la page de document souhaitée.
Capacité à rechercher des documents à l’aide de mots clés spécifiques ou via une expression régulière.
Prend en charge l’extraction des métadonnées et l’extraction d’images de Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; et autres types de documents.
Extraire la table des matières (TOC) de Microsoft Office & Reg; Word & Reg; & Formats ebook epub.
Capacité à extraire des données des conteneurs (archives), tels que, Zip, portefeuilles PDF, conteneurs OST, etc.
Capacité à itérer dans les champs de formulaire et à extraire les données de formulaire PDF.
Extraire les données des bases de données (par exemple sqlite) via JDBC.
Extraire les informations de Microsoft OneNote & Reg; des cahiers.
Extraire tous les hyper-liens d’un document entier ou d’une page spécifique ou d’une zone de page spécifique uniquement.
Formats de fichiers d’analyse du document pris en charge
Microsoft Word & Reg;: doc / dot / docx / docm / dotx / dotm / rtf / txt
OpenOffice Writer & Reg;: odt / ott /
Microsoft Excel & Reg;: xls / xlt / xlsx / xlsm / xlsb / xltx / xltm / xla / xlam
OpenOffice Calc & Reg;: ODS / OTS / CSV
Apple & Reg; iwork: nombres
Microsoft PowerPoint & Reg;: PPT / PPS / POT / PPTX / PPTM / POTX / POTM / PPSX / PPSM
OpenOffice Impress & Reg;: ODP / OTP
Microsoft Outlook & Reg;: PST / OST / EML / MSG
Apple & Reg; Message du courrier: emlx
Microsoft OneNote & Reg;: un
Disposition fixe: PDF
PostScript: ps
Marquage: xhtml / mhtml / md / xml
ebook: chm / epub / fb2
Archive: zip / rar / tar / gz / bz2
Image: bmp / gif / jpg / jpeg / jpe / jp2 / png / if / tiff / djvu / j2k / webp
vecteur: svg / svgz
Adobe Photoshop & Reg;: PSD
Imagerie médicale: DICOM
Métadonnées: EMF / WMF
Base de données: JDBC
Pour plus de détails et limitations, veuillez visiter Formats de documents pris en charge.
Configuration requise
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: mac os x
- Linux: Ubuntu, OpenSuse, Centos et autres
- Versions Java:
J2SE 7.0 (1.7)
,J2SE 8.0 (1.8)
ou au-dessus (par exemple Java 10)
GroupDocs.Parser pour Java ne nécessite pas d’installation de logiciel externe ou de tiers. Suivez simplement l’une des voies décrites en Installation et configuration.
Commencer
GroupDocs héberge toutes les API Java au Référentiel de groupes. Vous pouvez facilement utiliser GroupDocs.Parser pour l’API Java directement dans vos projets Maven avec des configurations simples. Pour les instructions détaillées, veuillez visiter la page de documentation Installation du référentiel GroupDocs à l’aide de maven.
Exemple de code Java pour l’extraction de texte à partir d’une page PDF spécifique
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Page de produit | Docs | Démos | Référence de l’API | Exemples | Blog | Support gratuit | Licence temporaire
Version | Release Date |
---|---|
22.11 | 30 novembre 2022 |
22.6 | 8 juin 2022 |
22.3 | 17 mars 2022 |
20.5 | 25 janvier 2022 |
20.12 | 25 janvier 2022 |
18.9 | 25 janvier 2022 |
18.11 | 25 janvier 2022 |
21.2 | 27 février 2021 |
20.8 | 19 août 2020 |
20.6 | 30 juin 2020 |
20.3 | 1 avril 2020 |
20.1 | 4 février 2020 |
19.11 | 3 décembre 2019 |
19.5 | 29 mai 2019 |
18.12 | 11 décembre 2018 |
18.10 | 10 octobre 2018 |
18.7 | 3 juillet 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation