申请试用
HOT
登录
注册
 
Milvus在趋势科技的实践
0 点赞
1 收藏
6下载
Milvus.io
/
发布于
/
52
人观看
展开查看详情

1.Milvus 在趋势科技的实践 黄伟

2.Faiss • 提供了多种相似性搜索方法,支持各种各样的不同用法和功能集。 • 特别优化了内存使用和速度。 • 为最相关索引方法提供了最先进的 GPU 实现。 • 缺点: • 但是这些只是最基础的工具库,其功能并不包括对向量数据的管理,不具备高可用性,缺 乏监控手段,没有提供分布式方案,以及缺少各种语言版本的SDK等等

3.向量搜索引擎 Engine Who Link Stars Details https://github.com/facebookresearch/faiss Faiss Facebook 10.7k CPU & GPU, https://github.com/google-research/google- ScaNN Google 12.3k Current best algorithm, not engine research/tree/master/scann https://github.com/milvus-io/milvus Milvus Zilliz上海 4k https://zhuanlan.zhihu.com/p/91444753 https://github.com/microsoft/SPTAG SPTAG MS 3.8k https://github.com/spotify/annoy Annoy lib 7.5k Approximate NN in C++/Python optimized for memory usage and loading/saving to disk https://segmentfault.com/a/119000002133 Zsearch 蚂蚁金服 基于ES做了个插件(不开源) 4725 https://www.infoq.cn/article/gxYOJ0m5rpM Vearch JD 735 在 Faiss 的基础上研发了 Vearch,提供了类似 pIEwvz9GR https://github.com/vearch/vearch ES的API https://github.com/opendistro-for- ESKNN Amazon 120 集成到ES,非常吃内存 elasticsearch/k-NN

4.ES+Faiss

5.性能 Engine Performance Data size dimension Where https://github.com/jobergum/dense-vector-ranking-performance ES 0.6s 1M 128 https://developer.aliyun.com/article/738155 ES-Aliyun 0.9s 20M 128 milvus 27ms 1B 128 https://github.com/milvus-io/milvus/blob/master/docs/test_report/milvus_ivfsq8_test_report_detailed_version.md SPTAG Not good https://github.com/microsoft/SPTAG/issues/80 https://github.com/microsoft/SPTAG/issues/76 Es+faiss 30ms 50M 200 Netease (56 CPU, 256G, x3)

6.Milvus

7.距离计算方法 Float: Binary:

8.index IVF_FLAT,hamming距离 IVF_FLAT, 欧式距离

9.背景 • Data size: 目前数据库1500w数据(thash:sha256),每天增加10w条。 • 要求一次搜索相似thash的速度尽可能快,并且召回率和准确率较 高。 • 数据导入快。

10.架构设计 similar_thash thash milvus updater thash_to_sha256s Thash API redis relation MySQL Provider updater Multi-APIs Big_size_relation Cache cache (redis) updater

11.Milvus HA

12.Monitor

13.APM

14.Discussion • 希望支持string类型的id • FD增多导致hang住

15.

0 点赞
1 收藏
6下载