<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>22.11</version>
</dependency>
</dependencies>
repositories {
maven {
url 'https://releases.groupdocs.com/java/repo/'
}
}
compile(group: 'com.groupdocs', name: 'groupdocs-search', version: '22.11')
<ivysettings>
<settings defaultResolver="chain"/>
<resolvers>
<chain name="chain">
<ibiblio name="GroupDocs Repository" m2compatible="true" root="https://releases.groupdocs.com/java/repo/"/>
</chain>
</resolvers>
</ivysettings>
<dependency org="com.groupdocs" name="groupdocs-search" rev="22.11">
<artifact name="groupdocs-search" ext="jar"/>
</dependency>
resolvers += Resolver.url("GroupDocs Repository", url("https://releases.groupdocs.com/java/repo/"))
libraryDependencies += "com.groupdocs" % "groupdocs-search" % "22.11"
高码Java API到索引和搜索文档
产品页面 | 文档 | 演示 | API参考 | 例子 | 博客 | 免费支持 | 临时许可
Java的GroupDocsSearch是本地Java API,可帮助索引文档内容和元数据,执行搜索(布尔值,刻面,模糊,家用电话)和自定义文本提取,应用搜索过滤器以及突出显示结果。
搜索和索引Java本地API功能
索引API功能
创建搜索索引,应用索引设置并订阅索引事件。
支持文件,流或数据结构中的索引文档。
将多个搜索索引合并为一个。
Support is available for:
- 其他字段
- 常规字符(分隔符和字母)
- 混合字符(这些特殊字符索引为分离器和字母,例如连字符)
- 字符作为一个整个词索引
- 索引期间的角色更换
- 自定义文本提取器
Index files protected with password
提供紧凑和元数据索引选项。
支持不同级别的压缩级别,以将提取的文本保存在索引中。
能够在索引期间过滤文档。
从索引删除索引路径的选项。
在索引时,将所有字符转换为小写或使用字符替换从文本中删除变节。
能够达到指定所需的字符集作为字母。
实现对自定义文本提取器的支持,然后使用该自定义提取器进行索引。
从索引中删除或删除索引文件夹和文件。
标记带有文本标签的索引文档,而无需重新索引。
通过应用文档属性在搜索过程中过滤文档。
索引时应用各种过滤器, such as:
- 创建时间过滤器(即跳过更早/晚于特定日期或在提供的日期范围之外创建的文件)
- 修改时间过滤器(与创建时间过滤器相同,但在文档修改日期工作)
- 文件路径滤波器(应用正则置于不匹配指定模式的完整路径的文件)
- 文件长度过滤器(指定下限/上限或字节中可接受的文件长度范围)
- 文件扩展过滤器(仅匹配指定文件扩展名列表的文件将被索引)
- 逻辑不是过滤器(倒置内部过滤器的逻辑)
- 逻辑和过滤器(需要所有内部过滤器成功的复合过滤器)
- 逻辑或过滤器(复合过滤器,至少需要一个内部过滤器才能成功)
Rename any indexed document without requiring it to reindex during the update
将其他字段添加到索引文档中,以关联更多的元数据。
能够将文档文本保存在索引中。
搜索API功能
Supports various types of searches, such as:
以
html
格式获取索引文档的文本。Apply various filters while searching documents, such as:
- 文件路径滤波器(应用正则以匹配指定模式的完整路径获取文件)
- 文件扩展过滤器(返回匹配指定文件扩展名列表的文件)
- 属性过滤器(返回与指定属性关联的文件)
- 组合过滤器(应用复合滤波器,或者不构成复杂查询)
搜索后,可以突出显示文档内容中发现的结果和短语。
启用键盘布局校正选项,用实际字符替换不支持的关键字字符。
搜索不同的单词形式,例如,名词,形容词,动词形式等。
搜索字典管理API功能
- Various types of 字典 can be used & managed, such as:
- 别名词典
- 字母字典
- 字符替代字典
- 文档密码词典
- 同音词典
- 拼写校正器
- 停止单词词典
- 同义词字典
- 单词表单提供商
支持的文档搜索文件格式
支持以下文件格式支持索引内容操作:
Microsoft Word&reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&reg;: ODT/OTT
Microsoft Excel&reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
openoffice calc&reg;: ods/ots/csv/csv/tsv/spreadsheetml
Microsoft PowerPoint&reg;: PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&reg;: ODP
Microsoft Outlook&reg;: PST/OST/EML/MSG
Apple&Reg;邮件: emlx
**Microsoft OneNote&reg;:**一个
标记: html/xhtml/mhtml/md/xml \
电子书: chm/epub/fb2
存档: zip
固定布局: PDF
为以下文件格式支持索引元数据操作:
Microsoft Word&reg;: doc/dot/docx/docm/dotx/dotm/rtf/txt
OpenOffice Writer&reg;: ODT/OTT
Microsoft Excel&reg;: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLTM/XLA/XLAM
openoffice calc&reg;: ods/ots/csv/csv/tsv/spreadsheetml
Microsoft PowerPoint&reg;: PPT/PPS/POT/PPTX/PPTM/PTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress&reg;: ODP
Microsoft Outlook&reg;: PST/OST/EML/MSG
Apple&Reg;邮件: emlx
**Microsoft OneNote&reg;:**一个
Microsoft Project&Reg;: MPP
Microsoft Visio&reg;: VSD/VSS
标记: html/xhtml/mhtml/md/xml \
电子书: chm/epub/fb2
存档: zip
音频: mp3/wav
视频: avi/mov/qt/flv/asf
图像: bmp/gif/jp2/png/webp/tiff/jpg/djvu \ \
Adobe Photoshop&reg;: PSD
医学成像: DCM/DICOM
元数据: emf/wmf
固定布局: pdf
bittorrent: torrent
有关详细信息和限制,请访问支持的文档格式。
系统要求
- Microsoft Windows: Windows Desktop&Server(X86,X64),Microsoft Azure
- macOS: Mac OS X
- Linux: Ubuntu,Opensuse,Centos等
- Java版本:``J2SE 7.0(1.7)
,
J2SE 8.0(1.8)`或更高(例如Java 10)
GroupDocs.Search for Java不需要安装任何外部软件或第三方工具。只需按照安装和配置中描述的方式之一。
开始
GroupDocs在GroupDocs存储库托管所有Java API。您可以轻松地使用groupDocs.Search在Maven项目中直接使用简单配置的Java API。有关详细说明,请访问使用Maven从GroupDocs存储库安装文档页面。
示例Java代码在搜索索引中使用混合字符
String indexFolder = "c:\\MyIndex\\";
String documentFolder = "c:\\MyDocuments\\";
// Creating an index in the specified folder
Index index = new Index(indexFolder);
// Setting hyphen character type to blended
index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended);
// Indexing documents from the specified folder
index.add(documentFolder);
// Searching in the index
SearchResult result1 = index.search("Elliot-Murray-Kynynmound");
SearchResult result2 = index.search("Elliot");
SearchResult result3 = index.search("Murray");
SearchResult result4 = index.search("Kynynmound");
GroupDocs.Total GroupDocs.Search API on premise DOC DOT DOCX DOCM DOTX DOTM RTF TXT ODT OTT XLS XLT XLSX XLSM XLSB XLTX XLTM XLA XLAM ODS OTS CSV TSV SpreadsheetML PPT PPS POT PPTX PPTM POTX POTM PPSX PPSM ODP PST OST EML MSG EMLX ONE MPP VSD VSS HTML XHTML MHTML MD XML CHM EPUB FB2 ZIP MP3 WAV AVI MOV QT FLV ASF BMP GIF JP2 PNG WEBP TIFF JPG DJVU PSD DCM DICOM EMF WMF PDF TORRENT search-index regular characters blended regular-characters blended-characters index password protected password-protected compression extract extraction diacritics extractor indexing attributes filter regex regular expression regular-expression faceted search fuzzy homophone dictionary alias alphabet synonym windows macOS Linux J2SE document automation