下你所需,载你所想!
汇集开发技术源码资料

多维空间向量方法去重代码计算文本相似度

:6.333KB :1 :2019-12-13 17:43:59

部分简介

这的重定义数组 可用启动子程序中的方法 但速度不知道会不会快,上面的全部代码在100W成员时耗时120ms左右。
原理:
1.分字(词)(分词对内容的判定会很强)
2.取出关键词字表
3.每个关键字分别对两条文本取字(词)频数,记为a1,b1...an,bn
4.根据关键词/字数量建立n维空间向量:n1=(a1,a2.……an);
n2=(b1,b2..….bn)
5.求n1,n2的模及其向量积
6.求n1,n2夹角的余弦值即为文本相似度
注:数组去重采用了别人的代码,原作者忘记是谁了。

你如果觉得速度还不够快 可对这个数组进行排序 对排序后的数组进行分块查找那速度是扛扛的! 纵观整个去重代码也就这里耗时了。

多维空间向量方法去重代码计算文本相似度

热门推荐

相关文章