- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Milvus在趋势科技的实践
展开查看详情
1 .Milvus 在趋势科技的实践 黄伟
2 .Faiss • 提供了多种相似性搜索方法,支持各种各样的不同用法和功能集。 • 特别优化了内存使用和速度。 • 为最相关索引方法提供了最先进的 GPU 实现。 • 缺点: • 但是这些只是最基础的工具库,其功能并不包括对向量数据的管理,不具备高可用性,缺 乏监控手段,没有提供分布式方案,以及缺少各种语言版本的SDK等等
3 .向量搜索引擎 Engine Who Link Stars Details https://github.com/facebookresearch/faiss Faiss Facebook 10.7k CPU & GPU, https://github.com/google-research/google- ScaNN Google 12.3k Current best algorithm, not engine research/tree/master/scann https://github.com/milvus-io/milvus Milvus Zilliz上海 4k https://zhuanlan.zhihu.com/p/91444753 https://github.com/microsoft/SPTAG SPTAG MS 3.8k https://github.com/spotify/annoy Annoy lib 7.5k Approximate NN in C++/Python optimized for memory usage and loading/saving to disk https://segmentfault.com/a/119000002133 Zsearch 蚂蚁金服 基于ES做了个插件(不开源) 4725 https://www.infoq.cn/article/gxYOJ0m5rpM Vearch JD 735 在 Faiss 的基础上研发了 Vearch,提供了类似 pIEwvz9GR https://github.com/vearch/vearch ES的API https://github.com/opendistro-for- ESKNN Amazon 120 集成到ES,非常吃内存 elasticsearch/k-NN
4 .ES+Faiss
5 .性能 Engine Performance Data size dimension Where https://github.com/jobergum/dense-vector-ranking-performance ES 0.6s 1M 128 https://developer.aliyun.com/article/738155 ES-Aliyun 0.9s 20M 128 milvus 27ms 1B 128 https://github.com/milvus-io/milvus/blob/master/docs/test_report/milvus_ivfsq8_test_report_detailed_version.md SPTAG Not good https://github.com/microsoft/SPTAG/issues/80 https://github.com/microsoft/SPTAG/issues/76 Es+faiss 30ms 50M 200 Netease (56 CPU, 256G, x3)
6 .Milvus
7 .距离计算方法 Float: Binary:
8 .index IVF_FLAT,hamming距离 IVF_FLAT, 欧式距离
9 .背景 • Data size: 目前数据库1500w数据(thash:sha256),每天增加10w条。 • 要求一次搜索相似thash的速度尽可能快,并且召回率和准确率较 高。 • 数据导入快。
10 .架构设计 similar_thash thash milvus updater thash_to_sha256s Thash API redis relation MySQL Provider updater Multi-APIs Big_size_relation Cache cache (redis) updater
11 .Milvus HA
12 .Monitor
13 .APM
14 .Discussion • 希望支持string类型的id • FD增多导致hang住
15 .