申请试用
HOT
登录
注册
 
利用doc2vec和milvus搭建相似文章召回服务

利用doc2vec和milvus搭建相似文章召回服务

Milvus.io
/
发布于
/
1733
人观看

当前相似文章召回,较为流行的有 bag of words,average word vectors,tfidf-weighting word vectors,这些方法能都实现文章向量的训练,但是对文章在语义空间中的表达仍有一定的欠缺,主要原因是不能够学习到单词的顺序或者句子的语义。Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,doc2vec 相较于传统的 word2vec 的方法,考虑了文章中单词的顺序,能更好更准确的在向量空间中表示一篇文章的语义,而相比于神经网络语言模型,Doc2vec 的省时省力更适合工业落地。

文章语义向量化后,利用 Milvus 对特征向量做相似度检索。能极大的提高相似文章的召回速度,做到实时相似文章召回。最后获取召回的相似文章相似度,根据业务场景通过策略加权,最终排序输出符合当前业务的相似文章结果。

10 点赞
3 收藏
1下载
确认
3秒后跳转登录页面
去登陆