<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Extração de texto e análise Java High Code API
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
GrupoDocsParser para Java é uma API local que permite que seus aplicativos Java analisem e extraem dados de vários tipos de formatos de arquivo. Ele permite extrair hiperlinks, tabelas, códigos de barras, texto, imagens e extração de dados de arquivos ZIP, arquivos de email, portfólios e bancos de dados em PDF. GroupDocs.Parser para Java pode ser usado para definir modelos definidos pelo usuário contendo posições de campo fixo, regex e vinculado para extração de dados precisa.
Extração de texto e analisar os recursos da API Java On-Premise
Document parsing via user-defined template
Crie um modelo definido pelo usuário com as definições de campo e tabela de dados.
Parse documentos via modelos de ajuste do usuário e extrair dados, como faturas, tabelas, etc.
Supports extraction of various text elements, such as:
- Extração de texto simples
- Extração de texto formatada como texto simples, HTML ou Markdown (MD)
- Extração de texto estruturada no formulário XML
- Extração da área de texto conforme coordenadas específicas, estilo de texto
- Extraia o texto em torno (no contexto de) uma palavra específica
Supports various extraction modes, such as:
- Modo de extração de texto preciso: o modo de extração de texto padrão com a melhor qualidade de texto possível.
- Modo de extração de texto bruto: o modo de extração com melhor desempenho, mas a qualidade do texto não é tão precisa quanto o modo acima mencionado.
Extraia o texto de todo o documento ou extraia apenas a página de documentos desejada.
Capacidade de pesquisar documentos usando palavras -chave específicas ou por expressão regular.
suporta extração de metadados e extração de imagem do Microsoft Word & Reg;, Excel & reg;, PowerPoint & reg;, PDF & Reg; e outros tipos de documentos.
Extrair o índice da tabela (TOC) da Microsoft Office & Reg; Word & Reg; & EPUB Ebook Formatos.
Capacidade de extrair dados de contêineres (arquivos), como portfólios de ZIP, PDF, contêineres OST, etc.
Capacidade de iterar através dos campos do formulário e extrair dados do formulário PDF.
Extraia dados de bancos de dados (por exemplo, sqlite) via JDBC.
Extrair informações da Microsoft OneNote & Reg; Notebooks.
Extraia todos os hiper-links de todo o documento ou de página específica ou apenas de uma área de página específica.
Formatos de arquivo de documentos de documentos suportados
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: ODT/OTT/
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: números
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
Layout fixo: PDF
PostScript: PS
marcação: xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: ZIP/RAR/TAR/GZ/BZ2
Imagem: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: SVG/SVGZ
Adobe Photoshop & reg ;: PSD
Imagem médica: dicom
Metadados: EMF/WMF
Banco de dados: JDBC
Para detalhes e limitações, visite, Formatos de documentos suportados.
Requisitos de sistema
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, Centos e outros
- Versões Java:
J2SE 7.0 (1.7)
,J2SE 8.0 (1.8)
ou acima (por exemplo, Java 10)
GroupDocs.Parser para Java não exige que nenhum software externo ou ferramenta de terceiros sejam instalados. Basta seguir uma das maneiras, conforme descrito em Instalação e configuração.
Iniciar
O GroupDocs hospeda todas as APIs Java no Repositório de GroupDocs. Você pode facilmente usar a API do GroupDocs.Parser para Java diretamente em seus projetos Maven com configurações simples. Para as instruções detalhadas, visite Instalação do Repositório GroupDocs usando Maven Página de documentação.
amostra Java Código para extração de texto de uma página PDF específica
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
Version | Release Date |
---|---|
22.11 | 30 de novembro de 2022 |
22.6 | 8 de junho de 2022 |
22.3 | 17 de março de 2022 |
20.5 | 25 de janeiro de 2022 |
20.12 | 25 de janeiro de 2022 |
18.9 | 25 de janeiro de 2022 |
18.11 | 25 de janeiro de 2022 |
21.2 | 27 de fevereiro de 2021 |
20.8 | 19 de agosto de 2020 |
20.6 | 30 de junho de 2020 |
20.3 | 1 de abril de 2020 |
20.1 | 4 de fevereiro de 2020 |
19.11 | 3 de dezembro de 2019 |
19.5 | 29 de maio de 2019 |
18.12 | 11 de dezembro de 2018 |
18.10 | 10 de outubro de 2018 |
18.7 | 3 de julho de 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation