<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Textextraktion & Parsing Java High Code API
Produktseite | Dokumente | Demos | API -Referenz | Beispiele | Blog | Freie Unterstützung | Vorübergehende Lizenz
GroupDocsparser für Java ist eine On-Premise-API, mit der Ihre Java-Anwendungen Daten aus verschiedenen Arten von Dateiformaten analysieren und extrahieren können. Sie können Hyperlinks, Tabellen, Barcodes, Text, Bilder und Datenextraktion aus ZIP -Archiven, E -Mail -Archiven, PDF -Portfolios und Datenbanken extrahieren. GroupDocs.Parser für Java kann verwendet werden, um benutzerdefinierte Vorlagen mit festen, regex- und verknüpften Feldpositionen für eine genaue Datenextraktion zu definieren.
Textextraktion & Parsing Java On-Premise-API-Funktionen
Document parsing via user-defined template
Erstellen Sie eine benutzerdefinierte Vorlage mit Datenfeld- und Tabellendefinitionen.
Dokumente über Benutzerdefinierte Vorlagen analysieren und Daten extrahieren, wie z. B. Rechnungen, Tabellen usw.
Supports extraction of various text elements, such as:
- Einfacher Textextraktion
- Formatierte Textextraktion als einfacher Text, HTML oder Markdown (MD)
- Strukturierte Textextraktion in der XML -Form
- Textbereichextraktion nach bestimmten Koordinaten, Textstil
- Text um (im Kontext von) ein bestimmtes Wort extrahieren
Supports various extraction modes, such as:
- Genauer Textxtraktionsmodus: Der Standard -Text -Extraktionsmodus mit der bestmöglichen Textqualität.
- RAW -Text -Extraktionsmodus: Der Extraktionsmodus mit besserer Leistung, aber die Textqualität ist nicht so genau wie der oben genannte Modus.
Extrahieren Sie den Text des gesamten Dokuments oder extrahieren Sie nur die gewünschte Dokumentseite.
Fähigkeit, Dokumente mit bestimmten Schlüsselwörtern oder über reguläre Ausdruck zu durchsuchen.
Unterstützt die Metadatenextraktion & Bildextraktion von Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, pdf & reg; & andere Dokumenttypen.
Inhaltsverzeichnis (TOC) aus Microsoft Office & Reg; Wort & Reg; & Epub eBook Formate.
Fähigkeit, Daten aus Containern (Archiven) zu extrahieren, wie z. B. ZIP, PDF -Portfolios, OST -Container usw.
Fähigkeit, durch die Formfelder zu iterieren und PDF -Formdaten zu extrahieren.
Datenbanken extrahieren (z. B. SQLite) über JDBC.
Informationen von Microsoft OneNote & Reg; Notizbücher.
Extrahieren Sie alle Hyperverbindungen aus dem gesamten Dokument oder aus einer bestimmten Seite oder nur aus einem bestimmten Seitenbereich.
unterstützte Dokument -Parser -Dateiformate
Microsoft Word & reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg;: ODT/OTT/
**Microsoft Excel & Reg;
OpenOffice Calc & Reg;: ODS/OTS/CSV
Apple & Reg; iwork: Zahlen
Microsoft PowerPoint & reg;: ppt/pps/ptpx/pptm/potx/ptm/ppsx/ppsm
OpenOffice Impress & Reg;: ODP/OTP
Microsoft Outlook & Reg;: PST/ost/eml/msg
Apple & Reg; Mail -Nachricht: emlx
Microsoft OneNote & reg;: eins
Behobene Layout: pdf
PostScript: PS
markup: xhtml/mhtml/md/xml
eBook: chm/epub/fb2 \
Archiv: ZIP/RAR/TAR/GZ/BZ2 \
Bild: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vektor: SVG/SVGZ
Adobe Photoshop & reg;: PSD
Medizinische Bildgebung: dicom
Metadaten: EMF/WMF
Datenbank: JDBC
Für Details und Einschränkungen besuchen Sie bitte Unterstützte Dokumentformate.
System Anforderungen
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS x
- Linux: Ubuntu, OpenSuse, Centos und andere
- Java -Versionen:
J2SE 7.0 (1,7)
, `J2SE 8.0 (1,8) oder höher (zum Beispiel Java 10)
GroupDocs.Parser für Java erfordert keine externe Software oder ein Drittanbieter -Tool. Folgen Sie einfach einem der Installation und Konfiguration beschriebenen Wege.
Loslegen
GroupDocs veranstaltet alle Java -APIs im GroupDocs Repository. Sie können problemlos GroupDocs.parser für Java -API direkt in Ihren Maven -Projekten mit einfachen Konfigurationen verwenden. Für die detaillierten Anweisungen besuchen Sie bitte Installation vom GroupDocs -Repository mit Maven Dokumentationsseite.
Beispiel Java -Code für die Textextraktion von einer bestimmten PDF -Seite
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Produktseite | Dokumente | Demos | API -Referenz | Beispiele | Blog | Freie Unterstützung | Vorübergehende Lizenz
Version | Release Date |
---|---|
22.11 | 30. November 2022 |
22.6 | 8. Juni 2022 |
22.3 | 17. März 2022 |
20.5 | 25. Januar 2022 |
20.12 | 25. Januar 2022 |
18.9 | 25. Januar 2022 |
18.11 | 25. Januar 2022 |
21.2 | 27. Februar 2021 |
20.8 | 19. August 2020 |
20.6 | 30. Juni 2020 |
20.3 | 1. April 2020 |
20.1 | 4. Februar 2020 |
19.11 | 3. Dezember 2019 |
19.5 | 29. Mai 2019 |
18.12 | 11. Dezember 2018 |
18.10 | 10. Oktober 2018 |
18.7 | 3. Juli 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation