<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>22.10</version>
</dependency>
compile(group: 'com.groupdocs', name: 'groupdocs-search', version: '22.10')
<dependency org="com.groupdocs" name="groupdocs-search" rev="22.10">
<artifact name="groupdocs-search" ext="jar"/>
</dependency>
libraryDependencies += "com.groupdocs" % "groupdocs-search" % "22.10"
API Java de código alto para indexar e pesquisar documentos
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
GroupDocSSearch para java é uma API Java no local para ajudar a indexar o conteúdo e os metadados do documento, executar pesquisas (boolean, facetado, confuso, telefone inicial) e extração de texto personalizada, aplicar filtros de pesquisa e destaque.
Search & Index Java On-Premise API Recursos
Recursos de API de indexação
Crie índice de pesquisa, aplique configurações de índice e assine os eventos de índice.
suporta documentos de indexação de arquivo, fluxo ou estrutura de dados.
Mesclar vários índices de pesquisa em um.
O suporte está disponível para:
- Campos adicionais
- Personagens regulares (separadores e letras)
- caracteres misturados (esses caracteres especiais são indexados como separadores e cartas, por exemplo, hífen)
- caracteres indexados como uma palavra inteira
- Substituição de personagem durante a indexação
- Extratores de texto personalizados
Arquivos de índice protegidos com senha
fornece as opções de índice compacto e metadados.
suporta diferentes níveis de compactação para salvar o texto extraído no índice.
Capacidade de filtrar documentos durante a indexação.
Opção para excluir caminhos indexados do índice.
Durante a indexação, converta todos os caracteres para minúsculas ou remover diacríticas do texto usando a substituição do caractere.
Capacidade para Especifique o conjunto desejado de caracteres como letras.
Implemente o suporte para um extrator de texto personalizado e use esse extrator personalizado para indexação.
Excluir ou remover documentos desejados do índice de pesquisa.
Remova ou exclua pastas e arquivos indexados do índice.
Marcar documentos indexados com etiquetas de texto sem re-indexamento.
Filtre documentos durante a pesquisa por meio de atributos de documentos aplicados.
Aplicar vários tipos de filtros durante a indexação, como:
- Filtro de tempo de criação (ou seja, os arquivos de ignorar criados anteriormente/posterior a uma determinada data ou fora do intervalo fornecido)
- Filtro de tempo de modificação (o mesmo que o filtro do tempo de criação, mas funciona na data de modificação do documento)
- filtro do caminho do arquivo (aplique regex para pular os arquivos com caminhos completos que não correspondem ao padrão especificado)
- Filtro de comprimento do arquivo (especifique o limite inferior/superior ou o intervalo de comprimento de arquivo aceitável em bytes)
- Filtro de extensão de arquivo (apenas arquivos correspondentes à lista de extensões de arquivo especificadas serão indexadas)
- lógico não filtro (inverta a lógica de um filtro interno)
- Lógico e filtro (filtro composto que exige que todos os filtros internos tenham sucesso)
- lógico ou filtro (filtro composto que requer pelo menos um filtro interno para ter sucesso)
Renomeie qualquer documento indexado sem exigir que ele reindex durante a atualização
Adicione campos adicionais a documentos indexados para associar mais metadados.
Capacidade de salvar o texto do documento no índice.
Pesquisando recursos da API
suporta vários tipos de pesquisas, como:
- suporta e, ou não operadores.
- Combine vários Alcadores de Pesquisa Booleana para compor os Alcadores Comlex.
Pesquisa sensível ao caso considera os caracteres maiúsculos e minúsculos como distintos.
Pesquisa de intervalo de data pesquisas com base na data fornecida no formato de data especificada.
Pesquisa facetada pesquisas apenas dentro de campos especificados em vez de um documento inteiro.
Pesquisa difusa Pesquise que detecta palavras de gravação erradas corretamente usando a lógica difusa.
Pesquisa de homofones Pesquise palavras que sejam semelhantes em som (pronúncia) à palavra pesquisada.
busque o texto de documentos indexados no formato
html
.Aplique vários filtros ao pesquisar documentos, como:
- Filtro do caminho do arquivo (aplique regex para buscar os arquivos com caminhos completos que correspondem ao padrão especificado)
- filtro de extensão de arquivo (retorna os arquivos que correspondem à lista de extensões de arquivo especificadas)
- Filtro de atributo (retorna os arquivos com os quais os atributos especificados estão associados)
- Filtros combinados (aplique filtros compostos e, ou não para compor consultas complexas)
Após a pesquisa, as palavras e frases resultantes encontradas no conteúdo do documento podem ser destacadas.
Ative a opção Correção do layout do teclado para substituir os caracteres de palavras -chave não suportadas pelos caracteres reais.
Procure por diferentes formulários de palavras, como, substantivo, adjetivo, formas de verbos etc.
Pesquise Recursos da API de gerenciamento de dicionário
- Vários tipos de dicionários podem ser usados e gerenciados, como:
- Dicionário de alias
- Dicionário de alfabetos
- Dicionário de substituição de personagens
- Diction Dictionary
- Dicionário de homofones
- Corretor de ortografia
- Stop Word Dictionary
- Dicionário sinônimo
- Provedor de formulários de palavras
Formatos de arquivo de pesquisa de documentos suportados
A operação de conteúdo de indexação é suportada para os seguintes formatos de arquivo:
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: odt/ott
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV/TSV/SPRENSHEETML
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
marcação: html/xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: Zip
Layout fixo: PDF
A operação de metadados de indexação é suportada para os seguintes formatos de arquivo:
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: odt/ott
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV/TSV/SPRENSHEETML
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
Microsoft Project & Reg ;: MPP
Microsoft Visio & Reg ;: VSD/VSS
marcação: html/xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: Zip
áudio: mp3/wav
VÍDEO: AVI/MOV/QT/FLV/ASF
Imagem: bmp/gif/jp2/png/webp/tiff/jpg/djvu
Adobe Photoshop & reg ;: PSD
Imagem médica: dcm/dicom
Metadados: EMF/WMF
Layout fixo: PDF
BitTorrent: Torrent
Para detalhes e limitações, visite, Formatos de documentos suportados.
Requisitos de sistema
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, Centos e outros
- Versões Java:
J2SE 7.0 (1.7)
,J2SE 8.0 (1.8)
ou acima (por exemplo, Java 10)
GroupDocs.search para Java não exige que nenhum software externo ou ferramenta de terceiros sejam instalados. Basta seguir uma das maneiras, conforme descrito em Instalação e configuração.
Iniciar
O GroupDocs hospeda todas as APIs Java no Repositório de GroupDocs. Você pode facilmente usar o groupDocs.search para a API Java diretamente em seus projetos maven com configurações simples. Para as instruções detalhadas, visite Instalação do Repositório GroupDocs usando Maven Página de documentação.
Exemplo de código java para usar os caracteres misturados na indexação de pesquisa
String indexFolder = "c:\\MyIndex\\";
String documentFolder = "c:\\MyDocuments\\";
// Creating an index in the specified folder
Index index = new Index(indexFolder);
// Setting hyphen character type to blended
index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended);
// Indexing documents from the specified folder
index.add(documentFolder);
// Searching in the index
SearchResult result1 = index.search("Elliot-Murray-Kynynmound");
SearchResult result2 = index.search("Elliot");
SearchResult result3 = index.search("Murray");
SearchResult result4 = index.search("Kynynmound");
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
Version | Release Date |
---|---|
22.11 | 30 de novembro de 2022 |
22.10 | 24 de outubro de 2022 |
21.2 | 25 de janeiro de 2022 |
20.8 | 25 de janeiro de 2022 |
19.2 | 25 de janeiro de 2022 |
18.12 | 25 de janeiro de 2022 |
21.8 | 18 de agosto de 2021 |
21.3 | 18 de março de 2021 |
20.11 | 19 de novembro de 2020 |
20.6 | 23 de junho de 2020 |
20.4 | 16 de abril de 2020 |
19.12 | 11 de dezembro de 2019 |
19.5.1 | 15 de julho de 2019 |
19.5 | 31 de maio de 2019 |
19.3 | 7 de março de 2019 |
18.11 | 1 de novembro de 2018 |
File | Classifier | Size |
---|---|---|
groupdocs-search-22.10-javadoc.jar | javadoc | 842 KB |
groupdocs-search-22.10.jar | 275 MB | |
groupdocs-search-22.10.pom | 3 KB |
GroupDocs.Total GroupDocs.Search API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV TSV SpreadsheetML PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP PST OST EML MSG EMLX ONE MPP VSD VSS HTML XHTML MHTML MD XML CHM EPUB FB2 ZIP MP3 WAV AVI MOV QT FLV ASF BMP GIF JP2 PNG WEBP TIFF JPG DJVU PSD DCM DICOM EMF WMF PDF TORRENT search-index regular characters blended regular-characters blended-characters index password protected password-protected compression extract extraction diacritics extractor indexing attributes filter regex regular expression regular-expression faceted search fuzzy homophone dictionary alias alphabet synonym windows macOS Linux J2SE document automation