GroupDocs.Parser for Java 22.11

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

copied!

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')

copied!

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
    <artifact name="groupdocs-parser" ext="jar"/>
</dependency>

copied!

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"

copied!

Εξαγωγή κειμένου & ανάλυση Java High Code API

Το Groupdocsparser για java είναι το API on-premise που επιτρέπει στις εφαρμογές Java να αναλύουν και να εξαγάγουν δεδομένα από διάφορους τύπους μορφών αρχείων. Σας επιτρέπει να εξαγάγετε υπερσυνδέσεις, πίνακες, γραμμωτούς κώδικες, κείμενο, εικόνες, καθώς και εξαγωγή δεδομένων από αρχεία ZIP, αρχεία ηλεκτρονικού ταχυδρομείου, χαρτοφυλάκια PDF και βάσεις δεδομένων. Το GroupDocs.Parser για το Java μπορεί να χρησιμοποιηθεί για τον καθορισμό προτύπων που ορίζονται από το χρήστη που περιέχουν σταθερές θέσεις, και συνδεδεμένες θέσεις πεδίου για ακριβή εξαγωγή δεδομένων.

Εξαγωγή κειμένου & Ανάλυση Java On-Premise API Χαρακτηριστικά

Αναλύσεις εγγράφων μέσω προτύπου που ορίζονται από το χρήστη
- Δημιουργήστε ένα πρότυπο καθορισμένο από το χρήστη με ορισμούς πεδίου και πίνακα δεδομένων.
- Αναλύστε τα έγγραφα μέσω πρότυπα χρήστη και εξαγωγή δεδομένων, όπως τιμολόγια, πίνακες κ.λπ.
Υποστηρίζει την εξαγωγή διαφόρων στοιχείων κειμένου, όπως:
- Απλή εξαγωγή κειμένου
- Εξαγωγή κειμένου μορφοποιημένου ως απλό κείμενο, HTML ή Markdown (MD)
- Δομημένη εξαγωγή κειμένου στη φόρμα XML
- Εξόρυξη περιοχής κειμένου σύμφωνα με συγκεκριμένες συντεταγμένες, στυλ κειμένου
- Εξαγάγετε κείμενο γύρω από (στο πλαίσιο) μιας συγκεκριμένης λέξης
Υποστηρίζει διάφορους τρόπους εκχύλισης, όπως:
- Ακριβής Λειτουργία Εξαγωγή κειμένου: Η προεπιλεγμένη λειτουργία εκχύλισης κειμένου με την καλύτερη δυνατή ποιότητα κειμένου.
- Λειτουργία εκχύλισης κειμένου: Η λειτουργία εξαγωγής με καλύτερη απόδοση, αλλά η ποιότητα του κειμένου δεν είναι τόσο ακριβής όσο η προαναφερθείσα λειτουργία.
Εξαγάγετε το κείμενο ολόκληρου του εγγράφου ή εξαγάγετε μόνο την επιθυμητή σελίδα εγγράφου.
Δυνατότητα αναζήτησης εγγράφων χρησιμοποιώντας συγκεκριμένες λέξεις -κλειδιά ή μέσω κανονικής έκφρασης.
Υποστηρίζει την εξαγωγή μεταδεδομένων και την εξαγωγή εικόνας από το Microsoft Word & Reg, Excel & Reg, PowerPoint & Reg, PDF & Reg; & άλλοι τύποι εγγράφων.
Εξαγόμενος Πίνακας Περιεχομένων (TOC) από το Microsoft Office & Reg. Λέξη & reg; & Epub Ebook μορφές.
Δυνατότητα εξαγωγής δεδομένων από εμπορευματοκιβώτια (αρχεία), όπως, φερμουάρ, χαρτοφυλάκια PDF, δοχεία OST κ.λπ.
Δυνατότητα επαναλήψεων μέσω των πεδίων φόρμας και εξαγωγή δεδομένων φόρμας PDF.
Εξαγωγή δεδομένων από βάσεις δεδομένων (π.χ. Sqlite) μέσω JDBC.
Εξαγωγή πληροφοριών από το Microsoft OneNote & Reg. τετράδια.
Εξαγάγετε όλες τις υπερ-συνδέσεις από ολόκληρο το έγγραφο ή από συγκεκριμένη σελίδα ή από μια συγκεκριμένη περιοχή σελίδας μόνο.

Υποστηριζόμενες μορφές αρχείου αναλυτή εγγράφων

**Microsoft Word & Reg: ** Doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg;: ODT/OTT/ **Microsoft Excel & reg ·: ** XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & reg;: ODS/OTS/CSV
**Apple & reg; iwork: ** Αριθμοί
**Microsoft PowerPoint & Reg: ** PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & reg;: ODP/OTP
Microsoft Outlook & reg;: PST/OST/EML/MSG
**Apple & reg; Μήνυμα αλληλογραφίας: ** EMLX
Microsoft OneNote & reg;: one
**Σταθερή διάταξη: ** PDF
**PostScript: ** PS
**σήμανση: ** xhtml/mhtml/md/xml
**Ebook: ** chm/epub/fb2
**Αρχείο: ** ZIP/RAR/TAR/GZ/BZ2
**Εικόνα: ** BMP/GIF/JPG/JPEG/JPE/JP2/PNG/TIF/TIFF/DJVU/J2K/WebP
**διάνυσμα: ** svg/svgz
Adobe Photoshop & Reg;: PSD
**Ιατρική απεικόνιση: ** DICOM
**Μεταδεδομένα: ** EMF/WMF
**Βάση δεδομένων: ** JDBC

Για λεπτομέρειες και περιορισμούς, επισκεφθείτε, Υποστηριζόμενες μορφές εγγράφων.

Απαιτήσεις συστήματος

**Microsoft Windows: ** Windows Desktop & Server (x86, x64), Microsoft Azure
**macos: ** mac os x
**Linux: ** ubuntu, opensuse, centos και άλλοι
**Εκδόσεις Java: ** J2SE 7.0 (1,7), J2SE 8.0 (1,8) ή παραπάνω (για παράδειγμα Java 10)

Το GroupDocs.Parser για το Java δεν απαιτεί να εγκατασταθεί κανένα εξωτερικό λογισμικό ή εργαλείο τρίτου μέρους. Απλώς ακολουθήστε έναν από τους τρόπους όπως περιγράφεται στο Εγκατάσταση και διαμόρφωση.

Ξεκίνα

Το GroupDocs φιλοξενεί όλα τα API Java στο Αποθετήριο GroupDocs. Μπορείτε εύκολα να χρησιμοποιήσετε το GroupDocs.Parser για το Java API απευθείας στα έργα Maven σας με απλές διαμορφώσεις. Για τις λεπτομερείς οδηγίες, επισκεφτείτε τη σελίδα τεκμηρίωσης Εγκατάσταση από το αποθετήριο GroupDocs χρησιμοποιώντας το Maven.

δείγμα κώδικα Java για εξαγωγή κειμένου από μια συγκεκριμένη σελίδα PDF

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Version	Release Date
25.5	4 Μαΐου 2025
24.6	27 Ιουνίου 2024
24.3	29 Μαρτίου 2024
23.11	24 Νοεμβρίου 2023
23.10	21 Οκτωβρίου 2023
23.9	17 Σεπτεμβρίου 2023
23.2	1 Μαρτίου 2023
22.11	30 Νοεμβρίου 2022
22.6	8 Ιουνίου 2022
22.3	17 Μαρτίου 2022
20.5	25 Ιανουαρίου 2022
20.12	25 Ιανουαρίου 2022
18.9	25 Ιανουαρίου 2022
18.11	25 Ιανουαρίου 2022
21.2	27 Φεβρουαρίου 2021
20.8	19 Αυγούστου 2020
20.6	30 Ιουνίου 2020
20.3	1 Απριλίου 2020
20.1	4 Φεβρουαρίου 2020
19.11	3 Δεκεμβρίου 2019
19.5	29 Μαΐου 2019
18.12	11 Δεκεμβρίου 2018
18.10	10 Οκτωβρίου 2018
18.7	3 Ιουλίου 2018

GroupDocs.Parser for Java 22.11 Release Notes

File	Classifier	Size
groupdocs-parser-22.11-javadoc.jar	javadoc	473 KB
groupdocs-parser-22.11.jar		146 MB
groupdocs-parser-22.11.pom		2 KB