<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Ekstraksi Teks & Parsing Java High Code API

main-banner

Halaman produk | Dokumen | Demo | Referensi API | Contoh | Blog | Dukungan gratis | Lisensi sementara

GroupDocsparser untuk Java adalah API di tempat yang memungkinkan aplikasi Java Anda untuk parse dan mengekstrak data dari berbagai jenis format file. Ini memungkinkan Anda untuk mengekstrak hyperlink, tabel, barcode, teks, gambar, serta ekstraksi data dari arsip ZIP, arsip email, portofolio PDF, & database. Groupdocs.parser untuk Java dapat digunakan untuk menentukan templat yang ditentukan pengguna yang berisi posisi lapangan tetap, regex, & tertaut untuk ekstraksi data yang akurat.

Ekstraksi Teks & Parsing Java On-Premise API Fitur

  • Document parsing via user-defined template

    • Buat templat yang ditentukan pengguna dengan Data Data & Definisi Tabel.

    • Dokumen parse melalui Template yang ditentukan pengguna dan mengekstrak data, seperti, faktur, tabel, dll.

  • Supports extraction of various text elements, such as:

    • Ekstraksi teks biasa
    • Ekstraksi teks yang diformat sebagai teks sederhana, html atau markdown (MD)
    • Ekstraksi teks terstruktur dalam bentuk xml
    • Ekstraksi area teks sesuai koordinat tertentu, gaya teks
    • mengekstrak teks di sekitar (dalam konteks) kata tertentu
  • Supports various extraction modes, such as:

    • Mode ekstraksi teks yang akurat: Mode ekstraksi teks default dengan kualitas teks terbaik.
    • Mode ekstraksi teks mentah: Mode ekstraksi dengan kinerja yang lebih baik tetapi kualitas teks tidak seakurat mode yang disebutkan di atas.
  • Ekstrak teks seluruh dokumen atau ekstrak hanya halaman dokumen yang diinginkan.

  • Kemampuan untuk mencari dokumen menggunakan kata kunci tertentu atau melalui ekspresi reguler.

  • Mendukung Ekstraksi Metadata & Ekstraksi Gambar dari Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; & jenis dokumen lainnya.

  • Ekstrak Daftar Isi (TOC) dari Microsoft Office & Reg; Word & Reg; & Format ebook epub.

  • Kemampuan untuk mengekstrak data dari wadah (arsip), seperti, zip, portofolio pdf, wadah OST, dll.

  • Kemampuan untuk berulang melalui bidang bentuk dan mengekstrak data formulir PDF.

  • Ekstrak data dari database (mis. Sqlite) melalui JDBC.

  • Ekstrak informasi dari Microsoft OneNote & Reg; notebook.

  • Ekstrak semua hyper-link dari seluruh dokumen atau dari halaman tertentu atau hanya dari area halaman tertentu.

Format file parser dokumen yang didukung

Microsoft Word & Reg ;: Doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: odt/Ott/ Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; IWork: Nomor
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Pesan Surat: EMLX
Microsoft OneNote & Reg ;: One
Tata letak tetap: pdf
PostScript: PS
markup: xhtml/mhtml/md/xml
ebook: chm/epub/fb2
Arsip: Zip/rar/tar/gz/bz2
Gambar: BMP/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vektor: SVG/SVGZ
Adobe Photoshop & Reg ;: psd
Pencitraan Medis: DICOM
Metadata: EMF/WMF
Database: JDBC

Untuk detail dan batasan, silakan kunjungi, Format dokumen yang didukung.

Persyaratan sistem

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu, OpenSuse, Centos, dan lainnya
  • Versi Java: j2se 7.0 (1.7), j2se 8.0 (1.8) atau di atas (misalnya Java 10)

Groupdocs.parser untuk Java tidak memerlukan perangkat lunak eksternal atau alat pihak ketiga untuk diinstal. Ikuti saja salah satu cara seperti yang dijelaskan dalam Instalasi dan Konfigurasi.

Memulai

GroupDocs menyelenggarakan semua API Java di Repositori GroupDocs. Anda dapat dengan mudah menggunakan groupdocs.parser untuk Java API langsung di proyek Maven Anda dengan konfigurasi sederhana. Untuk instruksi terperinci, silakan kunjungi halaman dokumentasi Instalasi dari Repositori GroupDocs Menggunakan Maven.

Contoh kode java untuk ekstraksi teks dari halaman PDF tertentu

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Halaman produk | Dokumen | Demo | Referensi API | Contoh | Blog | Dukungan gratis | Lisensi sementara

VersionRelease Date
22.1130 November 2022
22.68 Juni 2022
22.317 Maret 2022
20.525 Januari 2022
20.1225 Januari 2022
18.925 Januari 2022
18.1125 Januari 2022
21.227 Februari 2021
20.819 Agustus 2020
20.630 Juni 2020
20.31 April 2020
20.14 Februari 2020
19.113 Desember 2019
19.529 Mei 2019
18.1211 Desember 2018
18.1010 Oktober 2018
18.73 Juli 2018