<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Extração de texto e análise Java High Code API

main-banner

Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária

GrupoDocsParser para Java é uma API local que permite que seus aplicativos Java analisem e extraem dados de vários tipos de formatos de arquivo. Ele permite extrair hiperlinks, tabelas, códigos de barras, texto, imagens e extração de dados de arquivos ZIP, arquivos de email, portfólios e bancos de dados em PDF. GroupDocs.Parser para Java pode ser usado para definir modelos definidos pelo usuário contendo posições de campo fixo, regex e vinculado para extração de dados precisa.

Extração de texto e analisar os recursos da API Java On-Premise

  • Document parsing via user-defined template

    • Crie um modelo definido pelo usuário com as definições de campo e tabela de dados.

    • Parse documentos via modelos de ajuste do usuário e extrair dados, como faturas, tabelas, etc.

  • Supports extraction of various text elements, such as:

    • Extração de texto simples
    • Extração de texto formatada como texto simples, HTML ou Markdown (MD)
    • Extração de texto estruturada no formulário XML
    • Extração da área de texto conforme coordenadas específicas, estilo de texto
    • Extraia o texto em torno (no contexto de) uma palavra específica
  • Supports various extraction modes, such as:

    • Modo de extração de texto preciso: o modo de extração de texto padrão com a melhor qualidade de texto possível.
    • Modo de extração de texto bruto: o modo de extração com melhor desempenho, mas a qualidade do texto não é tão precisa quanto o modo acima mencionado.
  • Extraia o texto de todo o documento ou extraia apenas a página de documentos desejada.

  • Capacidade de pesquisar documentos usando palavras -chave específicas ou por expressão regular.

  • suporta extração de metadados e extração de imagem do Microsoft Word & Reg;, Excel & reg;, PowerPoint & reg;, PDF & Reg; e outros tipos de documentos.

  • Extrair o índice da tabela (TOC) da Microsoft Office & Reg; Word & Reg; & EPUB Ebook Formatos.

  • Capacidade de extrair dados de contêineres (arquivos), como portfólios de ZIP, PDF, contêineres OST, etc.

  • Capacidade de iterar através dos campos do formulário e extrair dados do formulário PDF.

  • Extraia dados de bancos de dados (por exemplo, sqlite) via JDBC.

  • Extrair informações da Microsoft OneNote & Reg; Notebooks.

  • Extraia todos os hiper-links de todo o documento ou de página específica ou apenas de uma área de página específica.

Formatos de arquivo de documentos de documentos suportados

Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: ODT/OTT/ Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; iWork: números
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
Layout fixo: PDF
PostScript: PS
marcação: xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: ZIP/RAR/TAR/GZ/BZ2
Imagem: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: SVG/SVGZ
Adobe Photoshop & reg ;: PSD
Imagem médica: dicom
Metadados: EMF/WMF
Banco de dados: JDBC

Para detalhes e limitações, visite, Formatos de documentos suportados.

Requisitos de sistema

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu, OpenSuse, Centos e outros
  • Versões Java: J2SE 7.0 (1.7), J2SE 8.0 (1.8) ou acima (por exemplo, Java 10)

GroupDocs.Parser para Java não exige que nenhum software externo ou ferramenta de terceiros sejam instalados. Basta seguir uma das maneiras, conforme descrito em Instalação e configuração.

Iniciar

O GroupDocs hospeda todas as APIs Java no Repositório de GroupDocs. Você pode facilmente usar a API do GroupDocs.Parser para Java diretamente em seus projetos Maven com configurações simples. Para as instruções detalhadas, visite Instalação do Repositório GroupDocs usando Maven Página de documentação.

amostra Java Código para extração de texto de uma página PDF específica

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária

VersionRelease Date
22.1130 de novembro de 2022
22.68 de junho de 2022
22.317 de março de 2022
20.525 de janeiro de 2022
20.1225 de janeiro de 2022
18.925 de janeiro de 2022
18.1125 de janeiro de 2022
21.227 de fevereiro de 2021
20.819 de agosto de 2020
20.630 de junho de 2020
20.31 de abril de 2020
20.14 de fevereiro de 2020
19.113 de dezembro de 2019
19.529 de maio de 2019
18.1211 de dezembro de 2018
18.1010 de outubro de 2018
18.73 de julho de 2018