<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Textextraktion & Parsing Java High Code API

main-banner

Produktseite | Dokumente | Demos | API -Referenz | Beispiele | Blog | Freie Unterstützung | Vorübergehende Lizenz

GroupDocsparser für Java ist eine On-Premise-API, mit der Ihre Java-Anwendungen Daten aus verschiedenen Arten von Dateiformaten analysieren und extrahieren können. Sie können Hyperlinks, Tabellen, Barcodes, Text, Bilder und Datenextraktion aus ZIP -Archiven, E -Mail -Archiven, PDF -Portfolios und Datenbanken extrahieren. GroupDocs.Parser für Java kann verwendet werden, um benutzerdefinierte Vorlagen mit festen, regex- und verknüpften Feldpositionen für eine genaue Datenextraktion zu definieren.

Textextraktion & Parsing Java On-Premise-API-Funktionen

  • Document parsing via user-defined template

    • Erstellen Sie eine benutzerdefinierte Vorlage mit Datenfeld- und Tabellendefinitionen.

    • Dokumente über Benutzerdefinierte Vorlagen analysieren und Daten extrahieren, wie z. B. Rechnungen, Tabellen usw.

  • Supports extraction of various text elements, such as:

    • Einfacher Textextraktion
    • Formatierte Textextraktion als einfacher Text, HTML oder Markdown (MD)
    • Strukturierte Textextraktion in der XML -Form
    • Textbereichextraktion nach bestimmten Koordinaten, Textstil
    • Text um (im Kontext von) ein bestimmtes Wort extrahieren
  • Supports various extraction modes, such as:

    • Genauer Textxtraktionsmodus: Der Standard -Text -Extraktionsmodus mit der bestmöglichen Textqualität.
    • RAW -Text -Extraktionsmodus: Der Extraktionsmodus mit besserer Leistung, aber die Textqualität ist nicht so genau wie der oben genannte Modus.
  • Extrahieren Sie den Text des gesamten Dokuments oder extrahieren Sie nur die gewünschte Dokumentseite.

  • Fähigkeit, Dokumente mit bestimmten Schlüsselwörtern oder über reguläre Ausdruck zu durchsuchen.

  • Unterstützt die Metadatenextraktion & Bildextraktion von Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, pdf & reg; & andere Dokumenttypen.

  • Inhaltsverzeichnis (TOC) aus Microsoft Office & Reg; Wort & Reg; & Epub eBook Formate.

  • Fähigkeit, Daten aus Containern (Archiven) zu extrahieren, wie z. B. ZIP, PDF -Portfolios, OST -Container usw.

  • Fähigkeit, durch die Formfelder zu iterieren und PDF -Formdaten zu extrahieren.

  • Datenbanken extrahieren (z. B. SQLite) über JDBC.

  • Informationen von Microsoft OneNote & Reg; Notizbücher.

  • Extrahieren Sie alle Hyperverbindungen aus dem gesamten Dokument oder aus einer bestimmten Seite oder nur aus einem bestimmten Seitenbereich.

unterstützte Dokument -Parser -Dateiformate

Microsoft Word & reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg;: ODT/OTT/ **Microsoft Excel & Reg; OpenOffice Calc & Reg;: ODS/OTS/CSV
Apple & Reg; iwork: Zahlen
Microsoft PowerPoint & reg;: ppt/pps/ptpx/pptm/potx/ptm/ppsx/ppsm
OpenOffice Impress & Reg;: ODP/OTP
Microsoft Outlook & Reg;: PST/ost/eml/msg
Apple & Reg; Mail -Nachricht: emlx
Microsoft OneNote & reg;: eins
Behobene Layout: pdf
PostScript: PS
markup: xhtml/mhtml/md/xml
eBook: chm/epub/fb2 \
Archiv: ZIP/RAR/TAR/GZ/BZ2 \
Bild: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vektor: SVG/SVGZ
Adobe Photoshop & reg;: PSD
Medizinische Bildgebung: dicom
Metadaten: EMF/WMF
Datenbank: JDBC

Für Details und Einschränkungen besuchen Sie bitte Unterstützte Dokumentformate.

System Anforderungen

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: Mac OS x
  • Linux: Ubuntu, OpenSuse, Centos und andere
  • Java -Versionen: J2SE 7.0 (1,7), `J2SE 8.0 (1,8) oder höher (zum Beispiel Java 10)

GroupDocs.Parser für Java erfordert keine externe Software oder ein Drittanbieter -Tool. Folgen Sie einfach einem der Installation und Konfiguration beschriebenen Wege.

Loslegen

GroupDocs veranstaltet alle Java -APIs im GroupDocs Repository. Sie können problemlos GroupDocs.parser für Java -API direkt in Ihren Maven -Projekten mit einfachen Konfigurationen verwenden. Für die detaillierten Anweisungen besuchen Sie bitte Installation vom GroupDocs -Repository mit Maven Dokumentationsseite.

Beispiel Java -Code für die Textextraktion von einer bestimmten PDF -Seite

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Produktseite | Dokumente | Demos | API -Referenz | Beispiele | Blog | Freie Unterstützung | Vorübergehende Lizenz

VersionRelease Date
22.1130. November 2022
22.68. Juni 2022
22.317. März 2022
20.525. Januar 2022
20.1225. Januar 2022
18.925. Januar 2022
18.1125. Januar 2022
21.227. Februar 2021
20.819. August 2020
20.630. Juni 2020
20.31. April 2020
20.14. Februar 2020
19.113. Dezember 2019
19.529. Mai 2019
18.1211. Dezember 2018
18.1010. Oktober 2018
18.73. Juli 2018