<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Metin Çıkarma ve Ayrıştırma Java Yüksek Kod API
Ürün sayfası | Belgeler | Demolar | API referansı | Örnekler | Blog | Ücretsiz Destek | Geçici lisans
Java için GroupDocsparser, Java uygulamalarınızın çeşitli dosya formatlarından verileri ayrıştırmasını ve çıkarmasını sağlayan şirket içi API’dır. Köprü, tablolar, barkodlar, metinler, görüntülerin yanı sıra zip arşivlerinden, e -posta arşivlerinden, PDF portföylerinden ve veritabanlarından veri çıkarmanıza izin verir. GroupDocs.Parser Java için, doğru veri çıkarma için sabit, regex ve bağlantılı alan konumları içeren kullanıcı tanımlı şablonları tanımlamak için kullanılabilir.
Metin Çıkarma ve Ayrıştırma Java Şirket içi API özellikleri
Document parsing via user-defined template
Veri alanı ve tablo tanımları içeren kullanıcı tanımlı bir şablon oluşturun.
Kullanıcı tanımlı şablonlar üzerinden belgeleri ayrıştırın ve faturalar, tablolar vb. Gibi verileri çıkarın.
Supports extraction of various text elements, such as:
- Düz metin çıkarma
- Basit metin, HTML veya Markdown (MD) olarak biçimlendirilmiş metin çıkarma
- XML formunda yapılandırılmış metin çıkarma
- Belirli koordinatlara göre metin alanı çıkarma, metin stili
- Belirli bir kelimenin etrafında (bağlamda) metin çıkarın
Supports various extraction modes, such as:
- Doğru metin çıkarma modu: Mümkün olan en iyi metin kalitesine sahip varsayılan metin çıkarma modu.
- Ham metin çıkarma modu: Daha iyi performansa sahip ekstraksiyon modu, ancak metin kalitesi yukarıda belirtilen mod kadar doğru değildir.
Tüm belgenin metnini çıkarın veya yalnızca istenen belge sayfasını çıkarın.
Belgeleri belirli anahtar kelimeler kullanarak veya normal ifade yoluyla arama yeteneği.
Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; ve diğer belge türleri.
Microsoft Office & Reg’den İçindekiler Tablosu (TOC); Word & Reg; & Epub e -kitap formatları.
ZIP, PDF portföyleri, OST kapları, vb. Gibi kaplardan (arşivler) veri çıkarma yeteneği
Form alanlarını yineleme ve PDF form verilerini çıkarma yeteneği.
Veritabanlarından veriler alın (örn. SQLITE) JDBC üzerinden.
Microsoft Onenote & Reg’den bilgi alın; Defterler.
Tüm hiper bağlantıları tüm belgeden veya belirli bir sayfadan veya yalnızca belirli bir sayfa alanından çıkarın.
Desteklenen Belge Ayrıştırıcı Dosyası Biçimleri
Microsoft Word & Reg ;: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
OpenOffice Yazar & Reg ;: ODT/OTT/
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iwork: Numaralar
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Posta mesajı: emlx
microsoft onenote & reg ;: bir
Sabit Düzen: PDF
Postscript: PS
İşaretleme: xhtml/mHtml/md/xml
e -kitap: chm/epub/fb2
Arşiv: ZIP/RAR/TAR/GZ/BZ2
Resim: BMP/GIF/JPG/JPEG/JPE/JP2/PNG/TIF/TIFF/DJVU/J2K/WebP
vektör: svg/svgz
Adobe Photoshop & Reg ;: PSD
Tıbbi görüntüleme: Dicom
meta veri: emf/wmf
Veritabanı: JDBC
Ayrıntılar ve sınırlamalar için lütfen Desteklenen belge biçimleri‘ı ziyaret edin.
Sistem gereksinimleri
- Microsoft Windows: *indows Desktop & Server (X86, X64), Microsoft Azure
- MacOS: *ac OS X
- linux: *buntu, opense, centos ve diğerleri
- Java Sürümleri: *J2SE 7.0 (1.7)
,
J2SE 8.0 (1.8)` veya üstü (örneğin Java 10)
Groupdocs.Parser için Java için herhangi bir harici yazılım veya üçüncü taraf aracı yüklenmesini gerektirmez. Kurulum ve Yapılandırma‘da tarif edildiği gibi yollardan birini takip edin.
Başlamak
GroupDocs, Groupdocs Deposu‘da tüm Java API’lerine ev sahipliği yapıyor. Basit konfigürasyonlarla doğrudan Maven projelerinizde Java API için GroupDocs.parser’ı kolayca kullanabilirsiniz. Ayrıntılı talimatlar için lütfen Maven kullanarak GroupDocs deposundan kurulum belge sayfasını ziyaret edin.
Belirli bir PDF sayfasından metin çıkarma için örnek java kodu
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Ürün sayfası | Belgeler | Demolar | API referansı | Örnekler | Blog | Ücretsiz Destek | Geçici lisans
Version | Release Date |
---|---|
22.11 | 30 Kasım 2022 |
22.6 | 8 Haziran 2022 |
22.3 | 17 Mart 2022 |
20.5 | 25 Ocak 2022 |
20.12 | 25 Ocak 2022 |
18.9 | 25 Ocak 2022 |
18.11 | 25 Ocak 2022 |
21.2 | 27 Şubat 2021 |
20.8 | 19 Ağustos 2020 |
20.6 | 30 Haziran 2020 |
20.3 | 1 Nisan 2020 |
20.1 | 4 Şubat 2020 |
19.11 | 3 Aralık 2019 |
19.5 | 29 Mayıs 2019 |
18.12 | 11 Aralık 2018 |
18.10 | 10 Ekim 2018 |
18.7 | 3 Temmuz 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation