<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Extraction de texte et analyse Java High Code API

main-banner

Page de produit | Docs | Démos | Référence de l’API | Exemples | Blog | Support gratuit | Licence temporaire

GroupDocsparser pour Java est une API sur site qui permet à vos applications Java d’analyser et d’extraire les données de différents types de formats de fichiers. Il vous permet d’extraire des hyperliens, des tables, des codes-barres, du texte, des images, ainsi qu’une extraction de données à partir d’archives zip, d’archives de messagerie, de portefeuilles PDF et de bases de données. GroupDocs.Parser pour Java peut être utilisé pour définir des modèles définis par l’utilisateur contenant des positions de champ fixe, regex et liée pour une extraction précise de données.

Extraction de texte et analyser les fonctionnalités de l’API Java sur site

  • Document parsing via user-defined template

    • Créez un modèle défini par l’utilisateur avec le champ de données et les définitions de table.

    • Parse Documents via modèles définis par l’utilisateur et extraire des données, telles que les factures, les tables, etc.

  • Supports extraction of various text elements, such as:

    • Extraction de texte brut
    • Extraction de texte formatée comme texte simple, HTML ou Markdown (MD)
    • Extraction de texte structurée dans la forme XML
    • Extraction de la zone de texte selon des coordonnées spécifiques, style de texte
    • Extraire du texte autour (dans le contexte de) un mot spécifique
  • Supports various extraction modes, such as:

    • Mode d’extraction de texte précis: le mode d’extraction de texte par défaut avec la meilleure qualité de texte possible.
    • Mode d’extraction de texte brut: le mode d’extraction avec de meilleures performances mais la qualité du texte n’est pas aussi précise que le mode susmentionné.
  • Extraire le texte de l’ensemble du document ou extraire uniquement la page de document souhaitée.

  • Capacité à rechercher des documents à l’aide de mots clés spécifiques ou via une expression régulière.

  • Prend en charge l’extraction des métadonnées et l’extraction d’images de Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; et autres types de documents.

  • Extraire la table des matières (TOC) de Microsoft Office & Reg; Word & Reg; & Formats ebook epub.

  • Capacité à extraire des données des conteneurs (archives), tels que, Zip, portefeuilles PDF, conteneurs OST, etc.

  • Capacité à itérer dans les champs de formulaire et à extraire les données de formulaire PDF.

  • Extraire les données des bases de données (par exemple sqlite) via JDBC.

  • Extraire les informations de Microsoft OneNote & Reg; des cahiers.

  • Extraire tous les hyper-liens d’un document entier ou d’une page spécifique ou d’une zone de page spécifique uniquement.

Formats de fichiers d’analyse du document pris en charge

Microsoft Word & Reg;: doc / dot / docx / docm / dotx / dotm / rtf / txt
OpenOffice Writer & Reg;: odt / ott / Microsoft Excel & Reg;: xls / xlt / xlsx / xlsm / xlsb / xltx / xltm / xla / xlam
OpenOffice Calc & Reg;: ODS / OTS / CSV
Apple & Reg; iwork: nombres
Microsoft PowerPoint & Reg;: PPT / PPS / POT / PPTX / PPTM / POTX / POTM / PPSX / PPSM
OpenOffice Impress & Reg;: ODP / OTP
Microsoft Outlook & Reg;: PST / OST / EML / MSG
Apple & Reg; Message du courrier: emlx
Microsoft OneNote & Reg;: un
Disposition fixe: PDF
PostScript: ps
Marquage: xhtml / mhtml / md / xml
ebook: chm / epub / fb2
Archive: zip / rar / tar / gz / bz2
Image: bmp / ​​gif / jpg / jpeg / jpe / jp2 / png / if / tiff / djvu / j2k / webp
vecteur: svg / svgz
Adobe Photoshop & Reg;: PSD
Imagerie médicale: DICOM
Métadonnées: EMF / WMF
Base de données: JDBC

Pour plus de détails et limitations, veuillez visiter Formats de documents pris en charge.

Configuration requise

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: mac os x
  • Linux: Ubuntu, OpenSuse, Centos et autres
  • Versions Java: J2SE 7.0 (1.7), J2SE 8.0 (1.8) ou au-dessus (par exemple Java 10)

GroupDocs.Parser pour Java ne nécessite pas d’installation de logiciel externe ou de tiers. Suivez simplement l’une des voies décrites en Installation et configuration.

Commencer

GroupDocs héberge toutes les API Java au Référentiel de groupes. Vous pouvez facilement utiliser GroupDocs.Parser pour l’API Java directement dans vos projets Maven avec des configurations simples. Pour les instructions détaillées, veuillez visiter la page de documentation Installation du référentiel GroupDocs à l’aide de maven.

Exemple de code Java pour l’extraction de texte à partir d’une page PDF spécifique

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Page de produit | Docs | Démos | Référence de l’API | Exemples | Blog | Support gratuit | Licence temporaire

VersionRelease Date
22.1130 novembre 2022
22.68 juin 2022
22.317 mars 2022
20.525 janvier 2022
20.1225 janvier 2022
18.925 janvier 2022
18.1125 janvier 2022
21.227 février 2021
20.819 août 2020
20.630 juin 2020
20.31 avril 2020
20.14 février 2020
19.113 décembre 2019
19.529 mai 2019
18.1211 décembre 2018
18.1010 octobre 2018
18.73 juillet 2018