<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-search', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-search" rev="22.11">
<artifact name="groupdocs-search" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-search" % "22.11"
API Java de código alto para indexar e pesquisar documentos
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
GroupDocSSearch para java é uma API Java no local para ajudar a indexar o conteúdo e os metadados do documento, executar pesquisas (boolean, facetado, fuzzy, home phone) e extração de texto personalizada, aplicar filtros de pesquisa e destaque.
Search & Index Java On-Premise API Recursos
Recursos de API de indexação
Crie índice de pesquisa, aplique configurações de índice e assine os eventos de índice.
suporta documentos de indexação de arquivo, fluxo ou estrutura de dados.
Mesclar vários índices de pesquisa em um.
Support is available for:
- Campos adicionais
- Personagens regulares (separadores e letras)
- caracteres misturados (esses caracteres especiais são indexados como separadores e cartas, por exemplo, hífen)
- caracteres indexados como uma palavra inteira
- Substituição de personagem durante a indexação
- Extratores de texto personalizados
Index files protected with password
fornece as opções de índice compacto e metadados.
suporta diferentes níveis de compactação para salvar o texto extraído no índice.
Capacidade de filtrar documentos durante a indexação.
Opção para excluir caminhos indexados do índice.
Durante a indexação, converta todos os caracteres para minúsculas ou remover diacríticas do texto usando a substituição do caractere.
Capacidade para Especifique o conjunto desejado de caracteres como letras.
Implemente o suporte para um extrator de texto personalizado e use esse extrator personalizado para indexação.
Excluir ou remover documentos desejados do índice de pesquisa.
Remova ou exclua pastas e arquivos indexados do índice.
Marcar documentos indexados com etiquetas de texto sem re-indexamento.
Filtre documentos durante a pesquisa por meio de atributos de documentos aplicados.
Aplicar vários tipos de filtros durante a indexação, such as:
- Filtro de tempo de criação (ou seja, os arquivos de ignorar criados anteriormente/posterior a uma determinada data ou fora do intervalo fornecido)
- Filtro de tempo de modificação (o mesmo que o filtro do tempo de criação, mas funciona na data de modificação do documento)
- filtro do caminho do arquivo (aplique regex para pular os arquivos com caminhos completos que não correspondem ao padrão especificado)
- Filtro de comprimento do arquivo (especifique o limite inferior/superior ou o intervalo de comprimento de arquivo aceitável em bytes)
- Filtro de extensão de arquivo (apenas arquivos correspondentes à lista de extensões de arquivo especificadas serão indexadas)
- lógico não filtro (inverta a lógica de um filtro interno)
- Lógico e filtro (filtro composto que exige que todos os filtros internos tenham sucesso)
- lógico ou filtro (filtro composto que requer pelo menos um filtro interno para ter sucesso)
Rename any indexed document without requiring it to reindex during the update
Adicione campos adicionais a documentos indexados para associar mais metadados.
Capacidade de salvar o texto do documento no índice.
Pesquisando recursos da API
Supports various types of searches, such as:
- suporta e, ou não operadores.
- Combine vários Alcadores de Pesquisa Booleana para compor os Alcadores Comlex.
Pesquisa sensível ao caso considera os caracteres maiúsculos e minúsculos como distintos.
Pesquisa de intervalo de data pesquisas com base no intervalo fornecido no formato de data especificada.
Pesquisa facetada pesquisa apenas em campos especificados em vez de um documento inteiro.
Pesquisa difusa Pesquise que detecta palavras de gravação erradas corretamente usando a lógica difusa.
Pesquisa de homofones Pesquise palavras que sejam semelhantes em som (pronúncia) à palavra pesquisada.
busque o texto de documentos indexados no formato
html
.Apply various filters while searching documents, such as:
- Filtro do caminho do arquivo (aplique regex para buscar os arquivos com caminhos completos que correspondem ao padrão especificado)
- filtro de extensão de arquivo (retorna os arquivos que correspondem à lista de extensões de arquivo especificadas)
- Filtro de atributo (retorna os arquivos com os quais os atributos especificados estão associados)
- Filtros combinados (aplique filtros compostos e, ou não para compor consultas complexas)
Após a pesquisa, as palavras e frases resultantes encontradas no conteúdo do documento podem ser destacadas.
Ativar a opção Correção do layout do teclado para substituir os caracteres de palavras -chave não suportadas pelos caracteres reais.
Procure por diferentes formulários de palavras, como, substantivo, adjetivo, formas de verbos etc.
Pesquise Recursos da API de gerenciamento de dicionário
- Various types of dicionários can be used & managed, such as:
- Dicionário de alias
- Dicionário de alfabetos
- Dicionário de substituição de personagens
- Diction Dictionary
- Dicionário de homofones
- Corretor de ortografia
- Stop Word Dictionary
- Dicionário sinônimo
- Provedor de formulários de palavras
Formatos de arquivo de pesquisa de documentos suportados
A operação de conteúdo de indexação é suportada para os seguintes formatos de arquivo:
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: odt/ott
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV/TSV/SPRENSHEETML
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
marcação: html/xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: Zip
Layout fixo: PDF
A operação de metadados de indexação é suportada para os seguintes formatos de arquivo:
Microsoft Word & Reg ;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer & Reg ;: odt/ott
Microsoft Excel & Reg ;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc & Reg ;: ODS/OTS/CSV/TSV/SPRENSHEETML
Microsoft PowerPoint & Reg ;: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress & Reg ;: ODP
Microsoft Outlook & Reg ;: PST/OST/EML/MSG
Apple & Reg; Mensagem de correio: Emlx
Microsoft OneNote & Reg ;: Um
Microsoft Project & Reg ;: MPP
Microsoft Visio & Reg ;: VSD/VSS
marcação: html/xhtml/mhtml/md/xml
Ebook: CHM/EPUB/FB2
Arquivo: Zip
áudio: mp3/wav
VÍDEO: AVI/MOV/QT/FLV/ASF
Imagem: bmp/gif/jp2/png/webp/tiff/jpg/djvu
Adobe Photoshop & reg ;: PSD
Imagem médica: dcm/dicom
Metadados: EMF/WMF
Layout fixo: PDF
BitTorrent: Torrent
Para detalhes e limitações, visite, Formatos de documentos suportados.
Requisitos de sistema
- Microsoft Windows: Windows Desktop & Server (x86, x64), Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu, OpenSuse, Centos e outros
- Versões Java:
J2SE 7.0 (1.7)
,J2SE 8.0 (1.8)
ou acima (por exemplo, Java 10)
GroupDocs.search para Java não exige que nenhum software externo ou ferramenta de terceiros sejam instalados. Basta seguir uma das maneiras, conforme descrito em Instalação e configuração.
Iniciar
O GroupDocs hospeda todas as APIs Java no Repositório de GroupDocs. Você pode facilmente usar o groupDocs.search para a API Java diretamente em seus projetos maven com configurações simples. Para as instruções detalhadas, visite Instalação do Repositório GroupDocs usando Maven Página de documentação.
Exemplo de código java para usar os caracteres misturados na indexação de pesquisa
String indexFolder = "c:\\MyIndex\\";
String documentFolder = "c:\\MyDocuments\\";
// Creating an index in the specified folder
Index index = new Index(indexFolder);
// Setting hyphen character type to blended
index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended);
// Indexing documents from the specified folder
index.add(documentFolder);
// Searching in the index
SearchResult result1 = index.search("Elliot-Murray-Kynynmound");
SearchResult result2 = index.search("Elliot");
SearchResult result3 = index.search("Murray");
SearchResult result4 = index.search("Kynynmound");
Página do produto | Documentos | Demos | Referência da API | Exemplos | Blog | Suporte gratuito | Licença temporária
Version | Release Date |
---|---|
22.11 | 30 de novembro de 2022 |
22.10 | 24 de outubro de 2022 |
21.2 | 25 de janeiro de 2022 |
20.8 | 25 de janeiro de 2022 |
19.2 | 25 de janeiro de 2022 |
18.12 | 25 de janeiro de 2022 |
21.8 | 18 de agosto de 2021 |
21.3 | 18 de março de 2021 |
20.11 | 19 de novembro de 2020 |
20.6 | 23 de junho de 2020 |
20.4 | 16 de abril de 2020 |
19.12 | 11 de dezembro de 2019 |
19.5.1 | 15 de julho de 2019 |
19.5 | 31 de maio de 2019 |
19.3 | 7 de março de 2019 |
18.11 | 1 de novembro de 2018 |
GroupDocs.Total GroupDocs.Search API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV TSV SpreadsheetML PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP PST OST EML MSG EMLX ONE MPP VSD VSS HTML XHTML MHTML MD XML CHM EPUB FB2 ZIP MP3 WAV AVI MOV QT FLV ASF BMP GIF JP2 PNG WEBP TIFF JPG DJVU PSD DCM DICOM EMF WMF PDF TORRENT search-index regular characters blended regular-characters blended-characters index password protected password-protected compression extract extraction diacritics extractor indexing attributes filter regex regular expression regular-expression faceted search fuzzy homophone dictionary alias alphabet synonym windows macOS Linux J2SE document automation