<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Εξαγωγή κειμένου & ανάλυση Java High Code API

main-banner

Σελίδα προϊόντος | Έγγραφα | Επίδειξη | Αναφορά API | Παραδείγματα | Ιστολόγιο | Δωρεάν υποστήριξη | Προσωρινή άδεια

Το Groupdocsparser για java είναι το API on-premise που επιτρέπει στις εφαρμογές Java να αναλύουν και να εξαγάγουν δεδομένα από διάφορους τύπους μορφών αρχείων. Σας επιτρέπει να εξαγάγετε υπερσυνδέσεις, πίνακες, γραμμωτούς κώδικες, κείμενο, εικόνες, καθώς και εξαγωγή δεδομένων από αρχεία ZIP, αρχεία ηλεκτρονικού ταχυδρομείου, χαρτοφυλάκια PDF και βάσεις δεδομένων. Το GroupDocs.Parser για το Java μπορεί να χρησιμοποιηθεί για τον καθορισμό προτύπων που ορίζονται από το χρήστη που περιέχουν σταθερές θέσεις, και συνδεδεμένες θέσεις πεδίου για ακριβή εξαγωγή δεδομένων.

Εξαγωγή κειμένου & Ανάλυση Java On-Premise API Χαρακτηριστικά

  • Document parsing via user-defined template

    • Δημιουργήστε ένα πρότυπο καθορισμένο από το χρήστη με ορισμούς πεδίου και πίνακα δεδομένων.

    • Αναλύστε τα έγγραφα μέσω πρότυπα χρήστη και τα δεδομένα εξαγωγής, όπως τιμολόγια, πίνακες κ.λπ.

  • Supports extraction of various text elements, such as:

    • Απλή εξαγωγή κειμένου
    • Εξαγωγή κειμένου μορφοποιημένου ως απλό κείμενο, HTML ή Markdown (MD)
    • Δομημένη εξαγωγή κειμένου στη φόρμα XML
    • Εξόρυξη περιοχής κειμένου σύμφωνα με συγκεκριμένες συντεταγμένες, στυλ κειμένου
    • Εξαγάγετε κείμενο γύρω από (στο πλαίσιο) μιας συγκεκριμένης λέξης
  • Supports various extraction modes, such as:

    • Ακριβής Λειτουργία Εξαγωγή κειμένου: Η προεπιλεγμένη λειτουργία εκχύλισης κειμένου με την καλύτερη δυνατή ποιότητα κειμένου.
    • Λειτουργία εκχύλισης κειμένου: Η λειτουργία εξαγωγής με καλύτερη απόδοση, αλλά η ποιότητα του κειμένου δεν είναι τόσο ακριβής όσο η προαναφερθείσα λειτουργία.
  • Εξαγάγετε το κείμενο ολόκληρου του εγγράφου ή εξαγάγετε μόνο την επιθυμητή σελίδα εγγράφου.

  • Δυνατότητα αναζήτησης εγγράφων χρησιμοποιώντας συγκεκριμένες λέξεις -κλειδιά ή μέσω κανονικής έκφρασης.

  • Υποστηρίζει την εξαγωγή μεταδεδομένων και την εξαγωγή εικόνας από το Microsoft Word & Reg, Excel & Reg, PowerPoint & Reg, PDF & Reg; & άλλοι τύποι εγγράφων.

  • Εξαγόμενος Πίνακας Περιεχομένων (TOC) από το Microsoft Office & Reg. Λέξη & reg; & Epub Ebook μορφές.

  • Δυνατότητα εξαγωγής δεδομένων από εμπορευματοκιβώτια (αρχεία), όπως, φερμουάρ, χαρτοφυλάκια PDF, δοχεία OST κ.λπ.

  • Δυνατότητα επαναλήψεων μέσω των πεδίων φόρμας και εξαγωγή δεδομένων φόρμας PDF.

  • Εξαγωγή δεδομένων από βάσεις δεδομένων (π.χ. Sqlite) μέσω JDBC.

  • Εξαγωγή πληροφοριών από το Microsoft OneNote & Reg. τετράδια.

  • Εξαγάγετε όλες τις υπερ-συνδέσεις από ολόκληρο το έγγραφο ή από συγκεκριμένη σελίδα ή από μια συγκεκριμένη περιοχή σελίδας μόνο.

Υποστηριζόμενες μορφές αρχείου αναλυτή εγγράφων

**Microsoft Word & Reg: ** Doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg;: ODT/OTT/ **Microsoft Excel & reg ·: ** XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & reg;: ODS/OTS/CSV
**Apple & reg; iwork: ** Αριθμοί
**Microsoft PowerPoint & Reg: ** PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & reg;: ODP/OTP
Microsoft Outlook & reg;: PST/OST/EML/MSG
**Apple & reg; Μήνυμα αλληλογραφίας: ** EMLX
Microsoft OneNote & reg;: one
**Σταθερή διάταξη: ** PDF
**PostScript: ** PS
**σήμανση: ** xhtml/mhtml/md/xml
**Ebook: ** chm/epub/fb2
**Αρχείο: ** ZIP/RAR/TAR/GZ/BZ2
**Εικόνα: ** BMP/GIF/JPG/JPEG/JPE/JP2/PNG/TIF/TIFF/DJVU/J2K/WebP
**διάνυσμα: ** svg/svgz
Adobe Photoshop & Reg;: PSD
**Ιατρική απεικόνιση: ** DICOM
**Μεταδεδομένα: ** EMF/WMF
**Βάση δεδομένων: ** JDBC

Για λεπτομέρειες και περιορισμούς, επισκεφτείτε το Υποστηριζόμενες μορφές εγγράφων.

Απαιτήσεις συστήματος

  • **Microsoft Windows: ** Windows Desktop & Server (x86, x64), Microsoft Azure
  • **macos: ** mac os x
  • **Linux: ** ubuntu, opensuse, centos και άλλοι
  • **Εκδόσεις Java: ** J2SE 7.0 (1,7), J2SE 8.0 (1,8) ή παραπάνω (για παράδειγμα Java 10)

Το GroupDocs.Parser για το Java δεν απαιτεί να εγκατασταθεί κανένα εξωτερικό λογισμικό ή εργαλείο τρίτου μέρους. Απλώς ακολουθήστε έναν από τους τρόπους όπως περιγράφεται το Εγκατάσταση και διαμόρφωση.

Ξεκίνα

Το GroupDocs φιλοξενεί όλα τα API Java στο Αποθετήριο GroupDocs. Μπορείτε εύκολα να χρησιμοποιήσετε το GroupDocs.Parser για το Java API απευθείας στα έργα Maven σας με απλές διαμορφώσεις. Για τις λεπτομερείς οδηγίες, επισκεφτείτε τη σελίδα τεκμηρίωσης Εγκατάσταση από το αποθετήριο GroupDocs χρησιμοποιώντας το Maven.

δείγμα κώδικα Java για εξαγωγή κειμένου από μια συγκεκριμένη σελίδα PDF

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Σελίδα προϊόντος | Έγγραφα | Επίδειξη | Αναφορά API | Παραδείγματα | Ιστολόγιο | Δωρεάν υποστήριξη | Προσωρινή άδεια

VersionRelease Date
22.1130 Νοεμβρίου 2022
22.68 Ιουνίου 2022
22.317 Μαρτίου 2022
20.525 Ιανουαρίου 2022
20.1225 Ιανουαρίου 2022
18.925 Ιανουαρίου 2022
18.1125 Ιανουαρίου 2022
21.227 Φεβρουαρίου 2021
20.819 Αυγούστου 2020
20.630 Ιουνίου 2020
20.31 Απριλίου 2020
20.14 Φεβρουαρίου 2020
19.113 Δεκεμβρίου 2019
19.529 Μαΐου 2019
18.1211 Δεκεμβρίου 2018
18.1010 Οκτωβρίου 2018
18.73 Ιουλίου 2018