<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/java/repo/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>22.11</version>
   </dependency>
</dependencies>
copied!  
repositories {
    maven {
        url 'https://releases.groupdocs.com/java/repo/'
    }
}

compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
copied!  
<ivysettings>
    <settings defaultResolver="chain"/>
    <resolvers>
        <chain name="chain">
            <ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
        </chain>
    </resolvers>
</ivysettings>

<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
   <artifact name="groupdocs-parser" ext="jar"/>
</dependency>
copied!  
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))

libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
copied!  

Extracción de texto y análisis API de código alto Java

main-banner

Página del producto | Documentos | Población | Referencia de API | Ejemplos | Blog | Soporte gratuito | Licencia temporal

Groupdocsparser para Java es una API local que permite que sus aplicaciones Java analicen y extraen datos de varios tipos de formatos de archivo. Le permite extraer hipervínculos, tablas, códigos de barras, texto, imágenes, así como extracción de datos de archivos zip, archivos de correo electrónico, carteras de PDF y bases de datos. Groupdocs.parser para Java se puede usar para definir plantillas definidas por el usuario que contienen posiciones de campo fijas, regex y vinculadas para una extracción de datos precisa.

Extracción de texto y análisis de Java en instalaciones API locales

  • Document parsing via user-defined template

    • Cree una plantilla definida por el usuario con el campo de datos y las definiciones de tabla.

    • Analizar documentos a través de plantillas definidas por el usuario y extraer datos, como facturas, tablas, etc.

  • Supports extraction of various text elements, such as:

    • Extracción de texto sin formato
    • Extracción de texto formateada como texto simple, HTML o Markdown (MD)
    • Extracción de texto estructurada en el formulario XML
    • Extracción del área de texto según las coordenadas específicas, el estilo de texto
    • extraer texto alrededor (en contexto) una palabra específica
  • Supports various extraction modes, such as:

    • Modo de extracción de texto preciso: el modo de extracción de texto predeterminado con la mejor calidad de texto posible.
    • Modo de extracción de texto sin procesar: el modo de extracción con un mejor rendimiento, pero la calidad del texto no es tan precisa como el modo mencionado anteriormente.
  • Extraiga el texto de todo el documento o extraiga solo la página de documento deseada.

  • Capacidad para buscar documentos utilizando palabras clave específicas o mediante expresión regular.

  • Admite extracción de metadatos y extracción de imagen de Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; y otros tipos de documentos.

  • Extraer tabla de contenido (TOC) de Microsoft Office & Reg; Palabra y reg; & Formatos de libros electrónicos EPUB.

  • Capacidad para extraer datos de contenedores (archivos), como zip, carteras de PDF, contenedores de OST, etc.

  • Capacidad para iterar a través de los campos de formulario y extraer datos de formulario PDF.

  • Extraer datos de bases de datos (por ejemplo, SQLite) a través de JDBC.

  • Extraiga información de Microsoft OneNote & Reg; cuadernos.

  • Extraiga todos los hiper-enlaces del documento completo o de la página específica o solo desde un área de página específica.

Formatos de archivo analizador de documentos compatibles

Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: ODT/OTT/ Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; IWork: Números
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensaje de correo: EMLX
Microsoft OneNote & Reg;: One
Diseño fijo: PDF
Postscript: PS
Marca: xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Archivo: zip/rar/tar/gz/bz2
Imagen: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: SVG/SVGZ
Adobe Photoshop & Reg ;: PSD
Imágenes médicas: Dicom
Metadatos: EMF/WMF
Base de datos: JDBC

Para detalles y limitaciones, visite, Formatos de documento compatibles.

Requisitos del sistema

  • Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu, OpenSuse, CentOS y otros
  • Versiones Java: J2SE 7.0 (1.7), J2SE 8.0 (1.8) o superior (por ejemplo Java 10)

Groupdocs.parser para Java no requiere que se instale ningún software externo o herramienta de terceros. Simplemente siga una de las formas como se describe en Instalacion y configuracion.

Empezar

Groupdocs alberga todas las API de Java en el Repositorio de grupos. Puede usar fácilmente groupdocs.parser para la API Java directamente en sus proyectos Maven con configuraciones simples. Para las instrucciones detalladas, visite la página de documentación Instalación desde el repositorio de Groupdocs utilizando Maven.

Ejemplo de código Java para extracción de texto de una página PDF específica

// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
    // Get the document info
    IDocumentInfo documentInfo = parser.getDocumentInfo();
    // Iterate over pages
    for (int p = 0; p < documentInfo.getPageCount(); p++) {
        // Print a page number
        System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
        // Extract a text into the reader
        try (TextReader reader = parser.getText(p)) {
            // Print a text from the document page
            System.out.println(reader.readToEnd());
        }
    }
}

Página del producto | Documentos | Población | Referencia de API | Ejemplos | Blog | Soporte gratuito | Licencia temporal

VersionRelease Date
22.1130 de noviembre de 2022
22.68 de junio de 2022
22.317 de marzo de 2022
20.525 de enero de 2022
20.1225 de enero de 2022
18.925 de enero de 2022
18.1125 de enero de 2022
21.227 de febrero de 2021
20.819 de agosto de 2020
20.630 de junio de 2020
20.31 de abril de 2020
20.14 de febrero de 2020
19.113 de diciembre de 2019
19.529 de mayo de 2019
18.1211 de diciembre de 2018
18.1010 de octubre de 2018
18.73 de julio de 2018