<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-parser', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-parser" rev="22.11">
<artifact name="groupdocs-parser" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-parser" % "22.11"
Extracción de texto y análisis API de código alto Java
Página del producto | Documentos | Población | Referencia de API | Ejemplos | Blog | Soporte gratuito | Licencia temporal
Groupdocsparser para Java es una API local que permite que sus aplicaciones Java analicen y extraen datos de varios tipos de formatos de archivo. Le permite extraer hipervínculos, tablas, códigos de barras, texto, imágenes, así como extracción de datos de archivos zip, archivos de correo electrónico, carteras de PDF y bases de datos. Groupdocs.parser para Java se puede usar para definir plantillas definidas por el usuario que contienen posiciones de campo fijas, regex y vinculadas para una extracción de datos precisa.
Extracción de texto y análisis de Java en instalaciones API locales
Document parsing via user-defined template
Cree una plantilla definida por el usuario con el campo de datos y las definiciones de tabla.
Analizar documentos a través de plantillas definidas por el usuario y extraer datos, como facturas, tablas, etc.
Supports extraction of various text elements, such as:
- Extracción de texto sin formato
- Extracción de texto formateada como texto simple, HTML o Markdown (MD)
- Extracción de texto estructurada en el formulario XML
- Extracción del área de texto según las coordenadas específicas, el estilo de texto
- extraer texto alrededor (en contexto) una palabra específica
Supports various extraction modes, such as:
- Modo de extracción de texto preciso: el modo de extracción de texto predeterminado con la mejor calidad de texto posible.
- Modo de extracción de texto sin procesar: el modo de extracción con un mejor rendimiento, pero la calidad del texto no es tan precisa como el modo mencionado anteriormente.
Extraiga el texto de todo el documento o extraiga solo la página de documento deseada.
Capacidad para buscar documentos utilizando palabras clave específicas o mediante expresión regular.
Admite extracción de metadatos y extracción de imagen de Microsoft Word & Reg;, Excel & Reg;, PowerPoint & Reg;, PDF & Reg; y otros tipos de documentos.
Extraer tabla de contenido (TOC) de Microsoft Office & Reg; Palabra y reg; & Formatos de libros electrónicos EPUB.
Capacidad para extraer datos de contenedores (archivos), como zip, carteras de PDF, contenedores de OST, etc.
Capacidad para iterar a través de los campos de formulario y extraer datos de formulario PDF.
Extraer datos de bases de datos (por ejemplo, SQLite) a través de JDBC.
Extraiga información de Microsoft OneNote & Reg; cuadernos.
Extraiga todos los hiper-enlaces del documento completo o de la página específica o solo desde un área de página específica.
Formatos de archivo analizador de documentos compatibles
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: ODT/OTT/
Microsoft Excel & Reg ;: xls/xlt/xlsx/xlsm/xlsb/xltx/xltm/xla/xlam
OpenOffice Calc & Reg ;: ODS/OTS/CSV
Apple & Reg; IWork: Números
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP/OTP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensaje de correo: EMLX
Microsoft OneNote & Reg;: One
Diseño fijo: PDF
Postscript: PS
Marca: xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Archivo: zip/rar/tar/gz/bz2
Imagen: bmp/gif/jpg/jpeg/jpe/jp2/png/tif/tiff/djvu/j2k/webp
Vector: SVG/SVGZ
Adobe Photoshop & Reg ;: PSD
Imágenes médicas: Dicom
Metadatos: EMF/WMF
Base de datos: JDBC
Para detalles y limitaciones, visite, Formatos de documento compatibles.
Requisitos del sistema
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, CentOS y otros
- Versiones Java:
J2SE 7.0 (1.7)
,J2SE 8.0 (1.8)
o superior (por ejemplo Java 10)
Groupdocs.parser para Java no requiere que se instale ningún software externo o herramienta de terceros. Simplemente siga una de las formas como se describe en Instalacion y configuracion.
Empezar
Groupdocs alberga todas las API de Java en el Repositorio de grupos. Puede usar fácilmente groupdocs.parser para la API Java directamente en sus proyectos Maven con configuraciones simples. Para las instrucciones detalladas, visite la página de documentación Instalación desde el repositorio de Groupdocs utilizando Maven.
Ejemplo de código Java para extracción de texto de una página PDF específica
// Create an instance of Parser class
try (Parser parser = new Parser(Constants.SamplePdf)) {
// Get the document info
IDocumentInfo documentInfo = parser.getDocumentInfo();
// Iterate over pages
for (int p = 0; p < documentInfo.getPageCount(); p++) {
// Print a page number
System.out.println(String.format("Page %d/%d", p + 1, documentInfo.getPageCount()));
// Extract a text into the reader
try (TextReader reader = parser.getText(p)) {
// Print a text from the document page
System.out.println(reader.readToEnd());
}
}
}
Página del producto | Documentos | Población | Referencia de API | Ejemplos | Blog | Soporte gratuito | Licencia temporal
Version | Release Date |
---|---|
22.11 | 30 de noviembre de 2022 |
22.6 | 8 de junio de 2022 |
22.3 | 17 de marzo de 2022 |
20.5 | 25 de enero de 2022 |
20.12 | 25 de enero de 2022 |
18.9 | 25 de enero de 2022 |
18.11 | 25 de enero de 2022 |
21.2 | 27 de febrero de 2021 |
20.8 | 19 de agosto de 2020 |
20.6 | 30 de junio de 2020 |
20.3 | 1 de abril de 2020 |
20.1 | 4 de febrero de 2020 |
19.11 | 3 de diciembre de 2019 |
19.5 | 29 de mayo de 2019 |
18.12 | 11 de diciembre de 2018 |
18.10 | 10 de octubre de 2018 |
18.7 | 3 de julio de 2018 |
GroupDocs.Total GroupDocs.Parser API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV NUMBERS PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP OTP PST OST EML MSG EMLX ONE PDF PS XHTML MHTML MD XML CHM EPUB FB2 ZIP RAR TAR GZ BZ2 BMP GIF JPG JPEG JPE JP2 PNG TIF TIFF DJVU J2K WEBP SVG SVGZ PSD DICOM EMF WMF JDBC windows macOS Linux J2SE azure sqlite JDBC parsing extract extraction extractor raw text search regex keywords hyperlink document automation