“检索”是很多产品中无法绕开的一个功能模块,当数据量小的时候可以使用模糊查询等操作凑合一下,但是当面临海量数据和高并发的时候,业界常用 elasticsearch 和 lucene 等方案,但是elasticsearch对运行时内存有着最低限额,其运行时大小推荐 2G 以上的内存空间,并且需要额外的磁盘空间做持久化存储,Redisearch这一次我们带来一种更加高效经济的文本检索方案。
Redisearch
介绍
由RedisLabs团队开发,RediSearch 是一个强大的文本搜索和二级索引引擎,作为 Redis 模块构建在 Redis 之上。与其他开源搜索引擎相比,RediSearch架构采用C语言编写,基于优化的数据结构进行构建,用于索引和检索数据,速度非常快。Redis Modules 是 redis 4.0 引入的一种扩展机制,用户可以通过实现 redis module 提供的 C api 接口为 redis 服务添加定制化功能。redisLab 也希望籍此来规范 redis 社区的 ecosystem 实现。redis module 本身的版本独立于redis,并且以编译成动态加载库 .so 文件的方式 release, 不同版本的 redis 可以 load 同一版本 module.so 文件。RediSearch是基于redis构建的分布式全文搜索和聚合引擎,能以极快的速度在redis数据集上执行复杂的搜索查询。
特性
Redisearch是高性能的全文搜索引擎(Faster, in-memory, highly available full text search),可作为Redis Module运行在Redis上。但是它与其他Redis搜索库不同的是,它不使用Redis内部数据结构,例如集合、排序集...,Redisearch支持如下特性:
- 二级索引
- 聚合
- 多个字段的文档的全文索引。
- 没有性能损失增量索引。
- 文档排名(由用户提供手动指数时间)。
- 字段权重。
- 支持用于查询扩展和评分的自定义函数
- 在子查询之间使用AND,OR,NOT运算符进行复杂的布尔查询。
- 可选的查询子句
- 前缀匹配全文查询。
- 自动完成建议以模糊前缀(建议)
- 准确短语搜索。
- 基于词*查询扩展(使用Snowball)。
- 数字过滤器和范围。
- 利用redis自己的GEO命令进行地理搜索。
- 支持任何utf-8编码的文本。
- 获取完整的文档内容或者只是id。
- 自动索引现有HASH keys文件
- 使用索引垃圾收集进行文档删除和更新。
- 可排序属性(即按年龄或名称对用户进行排序)
- 部分和有条件的文档更新。
持久化
RediSearch 支持基于 RDB 和 AOF 的持久性。对于纯 RDB 设置,除了标准的 Redis RDB 配置之外,不需要任何特殊的东西,虽然 RediSearch 支持使用基于 AOF 的持久性,但从 1.1.0 版本开始,它 不支持 使用 AOF 重写的“经典 AOF”模式。相反,它仅支持具有 RDB 前导码模式的 AOF。在这种模式下,重写 AOF 日志只会创建一个 RDB 文件,并附加到该文件中。
集群
RediSearch 固有地支持复制,并且使用主/从设置,可以使用从属来实现高可用性。最重要的是,从节点可用于搜索,以负载平衡读取流量。Redis Labs 提供的企业版 RediSearch 支持集群设置并扩展到数百个节点、数十亿个文档和 TB 级数据,企业版可以在active-ative 地理分布式数据库中运行 RediSearch。
性能
在同等服务器配置下索引了 560 万个文档 (5.3GB),RediSearch 构建索引的时间为 221 秒,而 Elasticsearch 为 349 秒,或者快 58%