<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-search</artifactId>
    <version>24.1</version>
</dependency>
copied!  
compile(group: 'com.groupdocs', name: 'groupdocs-search', version: '24.1')
copied!  
<dependency org="com.groupdocs" name="groupdocs-search" rev="24.1">
    <artifact name="groupdocs-search" ext="jar"/>
</dependency>
copied!  
libraryDependencies += "com.groupdocs" % "groupdocs-search" % "24.1"
copied!  

高级 Java API 用于文档索引与搜索

banner

产品页面 | 文档 | 演示 | API 参考 | 示例 | 博客 | 免费支持 | 临时许可

GroupDocs.Search for Java 是一款本地部署的 Java API,帮助索引文档内容和元数据,支持布尔、分面、模糊、同音词搜索与自定义文本提取,应用搜索过滤器并高亮显示搜索结果。

搜索与索引 Java 本地 API 特性

索引 API 功能

  • 创建搜索索引,应用索引设置,并订阅索引事件。
  • 支持从文件、流或数据结构中索引文档。
  • 支持合并多个搜索索引。
  • 支持附加字段、正则字符(分隔符和字母)、混合字符(同时作为分隔符和字母,如连字符)、整体单词字符、字符替换、以及自定义文本提取器。
  • 支持密码保护文件索引。
  • 提供紧凑型和元数据索引选项。
  • 支持不同压缩级别保存提取文本。
  • 支持索引期间的文档过滤。
  • 支持从索引中删除已索引路径。
  • 索引时可将所有字符转换为小写或移除文本中的变音符。
  • 支持指定字符集作为字母。
  • 支持自定义文本提取器用于索引。
  • 支持删除或移除索引中的文件及文件夹。
  • 可标记已索引文档文本标签,无需重新索引。
  • 支持通过应用文档属性过滤搜索结果。
  • 支持多种索引过滤器,如:
    • 创建时间过滤
    • 修改时间过滤
    • 文件路径正则过滤
    • 文件大小过滤
    • 文件扩展名过滤
    • 逻辑非、逻辑与、逻辑或复合过滤器
  • 可重命名已索引文档,无需重新索引。
  • 支持为索引文档添加附加字段。
  • 支持在索引中保存文档文本。

搜索 API 功能

  • 支持多种搜索类型:
    • 布尔搜索(AND、OR、NOT 操作符,支持复杂查询组合)
    • 区分大小写搜索
    • 日期范围搜索
    • 分面搜索(在指定字段内搜索)
    • 模糊搜索(拼写纠错)
    • 同音词搜索
  • 支持以 HTML 格式获取已索引文档文本。
  • 搜索时支持多种过滤器:
    • 文件路径正则过滤
    • 文件扩展名过滤
    • 属性过滤
    • 组合过滤(AND、OR、NOT)
  • 支持搜索结果中关键词高亮显示。
  • 支持键盘布局纠正,自动替换不支持的关键字字符。
  • 支持搜索不同词形(名词、形容词、动词形式等)。

搜索词典管理 API 功能

  • 支持多种词典管理,包括:
    • 别名词典
    • 字母词典
    • 字符替换词典
    • 文档密码词典
    • 同音词词典
    • 拼写纠正器
    • 停用词词典
    • 同义词词典
    • 词形提供器

支持的文档搜索文件格式

内容索引支持格式:

Microsoft Word®: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
OpenOffice Writer®: ODT/OTT
Microsoft Excel®: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc®: ODS/OTS/CSV/TSV/SpreadsheetML
Microsoft PowerPoint®: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress®: ODP
Microsoft Outlook®: PST/OST/EML/MSG
Apple® Mail Message: EMLX
Microsoft OneNote®: ONE
Markup: HTML/XHTML/MHTML/MD/XML
eBook: CHM/EPUB/FB2
Archive: ZIP
Fixed Layout: PDF

元数据索引支持格式:

Microsoft Word®: DOC/DOT/DOCX/DOCM/DOTX/DOTM/RTF/TXT
OpenOffice Writer®: ODT/OTT
Microsoft Excel®: XLS/XLT/XLSX/XLSM/XLSB/XLTX/XLTM/XLA/XLAM
OpenOffice Calc®: ODS/OTS/CSV/TSV/SpreadsheetML
Microsoft PowerPoint®: PPT/PPS/POT/PPTX/PPTM/POTX/POTM/PPSX/PPSM
OpenOffice Impress®: ODP
Microsoft Outlook®: PST/OST/EML/MSG
Apple® Mail Message: EMLX
Microsoft OneNote®: ONE
Microsoft Project®: MPP
Microsoft Visio®: VSD/VSS
Markup: HTML/XHTML/MHTML/MD/XML
eBook: CHM/EPUB/FB2
Archive: ZIP
Audio: MP3/WAV
Video: AVI/MOV/QT/FLV/ASF
Image: BMP/GIF/JP2/PNG/WEBP/TIFF/JPG/DJVU
Adobe Photoshop®: PSD
Medical Imaging: DCM/DICOM
Metadata: EMF/WMF
Fixed Layout: PDF
BitTorrent: TORRENT

详细格式支持及限制请参阅:支持的文档格式

系统需求

  • Microsoft Windows: Windows 桌面版及服务器版(x86, x64),Microsoft Azure
  • macOS: Mac OS X
  • Linux: Ubuntu、OpenSUSE、CentOS 等
  • Java 版本: J2SE 7.0 (1.7), J2SE 8.0 (1.8) 或更高(如 Java 10)

GroupDocs.Search for Java 无需安装任何外部软件或第三方工具。请参阅 安装与配置 指南。

快速入门

GroupDocs 所有 Java API 均托管于 GroupDocs 仓库,您可轻松通过 Maven 在项目中引用 GroupDocs.Search for Java。详细配置请参考 Maven 安装文档

VersionRelease Date
25.42025年4月23日
24.42024年4月22日
24.22024年2月6日
24.12024年1月15日
23.62023年6月15日
23.32023年3月24日
22.112022年11月30日
22.102022年10月24日
21.22022年1月25日
20.82022年1月25日
19.22022年1月25日
18.122022年1月25日
21.82021年8月18日
21.32021年3月18日
20.112020年11月19日
20.62020年6月23日
20.42020年4月16日
19.122019年12月11日
19.5.12019年7月15日
19.52019年5月31日
19.32019年3月7日
18.112018年11月1日