<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Εξαγωγή κειμένου & ανάλυση Java High Code API
Σελίδα προϊόντος | Έγγραφα | Επίδειξη | Αναφορά API | Παραδείγματα | Ιστολόγιο | Δωρεάν υποστήριξη | Προσωρινή άδεια
Το Groupdocsparser για java είναι το API on-premise που επιτρέπει στις εφαρμογές Java να αναλύουν και να εξαγάγουν δεδομένα από διάφορους τύπους μορφών αρχείων. Σας επιτρέπει να εξαγάγετε υπερσυνδέσεις, πίνακες, γραμμωτούς κώδικες, κείμενο, εικόνες, καθώς και εξαγωγή δεδομένων από αρχεία ZIP, αρχεία ηλεκτρονικού ταχυδρομείου, χαρτοφυλάκια PDF και βάσεις δεδομένων. Το GroupDocs.Parser για το Java μπορεί να χρησιμοποιηθεί για τον καθορισμό προτύπων που ορίζονται από το χρήστη που περιέχουν σταθερές θέσεις, και συνδεδεμένες θέσεις πεδίου για ακριβή εξαγωγή δεδομένων.
Εξαγωγή κειμένου & Ανάλυση Java On-Premise API Χαρακτηριστικά
Document parsing via user-defined template
Δημιουργήστε ένα πρότυπο καθορισμένο από το χρήστη με ορισμούς πεδίου και πίνακα δεδομένων.
Αναλύστε τα έγγραφα μέσω πρότυπα χρήστη και τα δεδομένα εξαγωγής, όπως τιμολόγια, πίνακες κ.λπ.
Supports extraction of various text elements, such as:
- Απλή εξαγωγή κειμένου
- Εξαγωγή κειμένου μορφοποιημένου ως απλό κείμενο, HTML ή Markdown (MD)
- Δομημένη εξαγωγή κειμένου στη φόρμα XML
- Εξόρυξη περιοχής κειμένου σύμφωνα με συγκεκριμένες συντεταγμένες, στυλ κειμένου
- Εξαγάγετε κείμενο γύρω από (στο πλαίσιο) μιας συγκεκριμένης λέξης
Supports various extraction modes, such as:
- Ακριβής Λειτουργία Εξαγωγή κειμένου: Η προεπιλεγμένη λειτουργία εκχύλισης κειμένου με την καλύτερη δυνατή ποιότητα κειμένου.
- Λειτουργία εκχύλισης κειμένου: Η λειτουργία εξαγωγής με καλύτερη απόδοση, αλλά η ποιότητα του κειμένου δεν είναι τόσο ακριβής όσο η προαναφερθείσα λειτουργία.
Εξαγάγετε το κείμενο ολόκληρου του εγγράφου ή εξαγάγετε μόνο την επιθυμητή σελίδα εγγράφου.
Δυνατότητα αναζήτησης εγγράφων χρησιμοποιώντας συγκεκριμένες λέξεις -κλειδιά ή μέσω κανονικής έκφρασης.
Υποστηρίζει την εξαγωγή μεταδεδομένων και την εξαγωγή εικόνας από το Microsoft Word & Reg, Excel & Reg, PowerPoint & Reg, PDF & Reg; & άλλοι τύποι εγγράφων.
Εξαγόμενος Πίνακας Περιεχομένων (TOC) από το Microsoft Office & Reg. Λέξη & reg; & Epub Ebook μορφές.
Δυνατότητα εξαγωγής δεδομένων από εμπορευματοκιβώτια (αρχεία), όπως, φερμουάρ, χαρτοφυλάκια PDF, δοχεία OST κ.λπ.
Δυνατότητα επαναλήψεων μέσω των πεδίων φόρμας και εξαγωγή δεδομένων φόρμας PDF.
Εξαγωγή δεδομένων από βάσεις δεδομένων (π.χ. Sqlite) μέσω JDBC.
Εξαγωγή πληροφοριών από το Microsoft OneNote & Reg. τετράδια.
Εξαγάγετε όλες τις υπερ-συνδέσεις από ολόκληρο το έγγραφο ή από συγκεκριμένη σελίδα ή από μια συγκεκριμένη περιοχή σελίδας μόνο.
Υποστηριζόμενες μορφές αρχείου αναλυτή εγγράφων
**Microsoft Word & Reg: ** Doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg;: ODT/OTT/
**Microsoft Excel & reg ·: ** XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & reg;: ODS/OTS/CSV
**Apple & reg; iwork: ** Αριθμοί
**Microsoft PowerPoint & Reg: ** PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & reg;: ODP/OTP
Microsoft Outlook & reg;: PST/OST/EML/MSG
**Apple & reg; Μήνυμα αλληλογραφίας: ** EMLX
Microsoft OneNote & reg;: one
**Σταθερή διάταξη: ** PDF
**PostScript: ** PS
**σήμανση: ** xhtml/mhtml/md/xml
**Ebook: ** chm/epub/fb2
**Αρχείο: ** ZIP/RAR/TAR/GZ/BZ2
**Εικόνα: ** BMP/GIF/JPG/JPEG/JPE/JP2/PNG/TIF/TIFF/DJVU/J2K/WebP
**διάνυσμα: ** svg/svgz
Adobe Photoshop & Reg;: PSD
**Ιατρική απεικόνιση: ** DICOM
**Μεταδεδομένα: ** EMF/WMF
**Βάση δεδομένων: ** JDBC
Για λεπτομέρειες και περιορισμούς, επισκεφτείτε το Υποστηριζόμενες μορφές εγγράφων.
Απαιτήσεις συστήματος
- **Microsoft Windows: ** Windows Desktop & Server (x86, x64), Microsoft Azure
- **macos: ** mac os x
- **Linux: ** ubuntu, opensuse, centos και άλλοι
- **Εκδόσεις Java: **
J2SE 7.0 (1,7)
,J2SE 8.0 (1,8)
ή παραπάνω (για παράδειγμα Java 10)
Το GroupDocs.Parser για το Java δεν απαιτεί να εγκατασταθεί κανένα εξωτερικό λογισμικό ή εργαλείο τρίτου μέρους. Απλώς ακολουθήστε έναν από τους τρόπους όπως περιγράφεται το Εγκατάσταση και διαμόρφωση.
Ξεκίνα
Το GroupDocs φιλοξενεί όλα τα API Java στο Αποθετήριο GroupDocs. Μπορείτε εύκολα να χρησιμοποιήσετε το GroupDocs.Parser για το Java API απευθείας στα έργα Maven σας με απλές διαμορφώσεις. Για τις λεπτομερείς οδηγίες, επισκεφτείτε τη σελίδα τεκμηρίωσης Εγκατάσταση από το αποθετήριο GroupDocs χρησιμοποιώντας το Maven.
δείγμα κώδικα Java για εξαγωγή κειμένου από μια συγκεκριμένη σελίδα PDF
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Σελίδα προϊόντος | Έγγραφα | Επίδειξη | Αναφορά API | Παραδείγματα | Ιστολόγιο | Δωρεάν υποστήριξη | Προσωρινή άδεια
Version | Release Date |
---|---|
22.11 | 30 Νοεμβρίου 2022 |
22.6 | 8 Ιουνίου 2022 |
22.3 | 17 Μαρτίου 2022 |
20.5 | 25 Ιανουαρίου 2022 |
20.12 | 25 Ιανουαρίου 2022 |
18.9 | 25 Ιανουαρίου 2022 |
18.11 | 25 Ιανουαρίου 2022 |
21.2 | 27 Φεβρουαρίου 2021 |
20.8 | 19 Αυγούστου 2020 |
20.6 | 30 Ιουνίου 2020 |
20.3 | 1 Απριλίου 2020 |
20.1 | 4 Φεβρουαρίου 2020 |
19.11 | 3 Δεκεμβρίου 2019 |
19.5 | 29 Μαΐου 2019 |
18.12 | 11 Δεκεμβρίου 2018 |
18.10 | 10 Οκτωβρίου 2018 |
18.7 | 3 Ιουλίου 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation