<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Metin Çıkarma ve Ayrıştırma Java Yüksek Kod API

main-banner

Ürün sayfası | Belgeler | Demolar | API referansı | Örnekler | Blog | Ücretsiz Destek | Geçici lisans

Java için GroupDocsparser, Java uygulamalarınızın çeşitli dosya formatlarından verileri ayrıştırmasını ve çıkarmasını sağlayan şirket içi API’dır. Köprü, tablolar, barkodlar, metinler, görüntülerin yanı sıra zip arşivlerinden, e -posta arşivlerinden, PDF portföylerinden ve veritabanlarından veri çıkarmanıza izin verir. GroupDocs.Parser Java için, doğru veri çıkarma için sabit, regex ve bağlantılı alan konumları içeren kullanıcı tanımlı şablonları tanımlamak için kullanılabilir.

Metin Çıkarma ve Ayrıştırma Java Şirket içi API özellikleri

  • Document parsing via user-defined template

    • Veri alanı ve tablo tanımları içeren kullanıcı tanımlı bir şablon oluşturun.

    • Kullanıcı tanımlı şablonlar üzerinden belgeleri ayrıştırın ve faturalar, tablolar vb. Gibi verileri çıkarın.

  • Supports extraction of various text elements, such as:

    • Düz metin çıkarma
    • Basit metin, HTML veya Markdown (MD) olarak biçimlendirilmiş metin çıkarma
    • XML ​​formunda yapılandırılmış metin çıkarma
    • Belirli koordinatlara göre metin alanı çıkarma, metin stili
    • Belirli bir kelimenin etrafında (bağlamda) metin çıkarın
  • Supports various extraction modes, such as:

    • Doğru metin çıkarma modu: Mümkün olan en iyi metin kalitesine sahip varsayılan metin çıkarma modu.
    • Ham metin çıkarma modu: Daha iyi performansa sahip ekstraksiyon modu, ancak metin kalitesi yukarıda belirtilen mod kadar doğru değildir.
  • Tüm belgenin metnini çıkarın veya yalnızca istenen belge sayfasını çıkarın.

  • Belgeleri belirli anahtar kelimeler kullanarak veya normal ifade yoluyla arama yeteneği.

  • Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; ve diğer belge türleri.

  • Microsoft Office & Reg’den İçindekiler Tablosu (TOC); Word & Reg; & Epub e -kitap formatları.

  • ZIP, PDF portföyleri, OST kapları, vb. Gibi kaplardan (arşivler) veri çıkarma yeteneği

  • Form alanlarını yineleme ve PDF form verilerini çıkarma yeteneği.

  • Veritabanlarından veriler alın (örn. SQLITE) JDBC üzerinden.

  • Microsoft Onenote & Reg’den bilgi alın; Defterler.

  • Tüm hiper bağlantıları tüm belgeden veya belirli bir sayfadan veya yalnızca belirli bir sayfa alanından çıkarın.

Desteklenen Belge Ayrıştırıcı Dosyası Biçimleri

Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
OpenOffice Yazar & Reg ;: ODT/OTT/ Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iwork: Numaralar
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Posta mesajı: emlx
microsoft onenote & reg ;: bir
Sabit Düzen: PDF
Postscript: PS
İşaretleme: xhtml/mHtml/md/xml
e -kitap: chm/epub/fb2
Arşiv: ZIP/RAR/TAR/GZ/BZ2
Resim: BMP/GIF/JPG/JPEG/JPE/JP2/PNG/TIF/TIFF/DJVU/J2K/WebP
vektör: svg/svgz
Adobe Photoshop & Reg ;: PSD
Tıbbi görüntüleme: Dicom
meta veri: emf/wmf
Veritabanı: JDBC

Ayrıntılar ve sınırlamalar için lütfen Desteklenen belge biçimleri‘ı ziyaret edin.

Sistem gereksinimleri

  • Microsoft Windows: *indows Desktop & Server (X86, X64), Microsoft Azure
  • MacOS: *ac OS X
  • linux: *buntu, opense, centos ve diğerleri
  • Java Sürümleri: *J2SE 7.0 (1.7), J2SE 8.0 (1.8)` veya üstü (örneğin Java 10)

Groupdocs.Parser için Java için herhangi bir harici yazılım veya üçüncü taraf aracı yüklenmesini gerektirmez. Kurulum ve Yapılandırma‘da tarif edildiği gibi yollardan birini takip edin.

Başlamak

GroupDocs, Groupdocs Deposu‘da tüm Java API’lerine ev sahipliği yapıyor. Basit konfigürasyonlarla doğrudan Maven projelerinizde Java API için GroupDocs.parser’ı kolayca kullanabilirsiniz. Ayrıntılı talimatlar için lütfen Maven kullanarak GroupDocs deposundan kurulum belge sayfasını ziyaret edin.

Belirli bir PDF sayfasından metin çıkarma için örnek java kodu

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Ürün sayfası | Belgeler | Demolar | API referansı | Örnekler | Blog | Ücretsiz Destek | Geçici lisans

VersionRelease Date
22.1130 Kasım 2022
22.68 Haziran 2022
22.317 Mart 2022
20.525 Ocak 2022
20.1225 Ocak 2022
18.925 Ocak 2022
18.1125 Ocak 2022
21.227 Şubat 2021
20.819 Ağustos 2020
20.630 Haziran 2020
20.31 Nisan 2020
20.14 Şubat 2020
19.113 Aralık 2019
19.529 Mayıs 2019
18.1211 Aralık 2018
18.1010 Ekim 2018
18.73 Temmuz 2018