欢迎光临
我们一直在努力

常用距离公式大全,距离公式表

?

余弦距离公式
余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,一般情况下,用Embedding得到两个文本的向量表示之后,可以使用余弦相似度计算两个文本之间的相似度。计算公式如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??Jaccard(杰卡德)距离
主要用于计算样本间的相似度Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式便宜香港vps为:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??欧式距离
?

欧式距离也称明理的小天鹅距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。计算公式如下:

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

编辑距离

编辑距离主要用来计算两个字符串的相似度,其定义如下:
设有字符串A和B,B为模式串,现给定以下操作:从字符串中删除一个字符;从字符串中插入一个字符;从字符串中替换一个字符。通过以上三种操作,将字符串A编辑为模式串B所需的最小操作数称为A和B的最短编辑距离,记为ED(A,B)。

求解最短编辑距离的算法描述如下:
用一个二维数组ED[i][j]表示字符串A的前i个字符编辑成字符串B的前j个字符所需的最小操作数。则ED[i][j]的递推公式为:
⑴ ED[i][0]=i,ED[0][j]=j,其中0≤i≤A.len,0≤j≤B.len;
⑵ 若A[i]=B[j],则ED[i][j]=ED[i-1][j-1];
⑶ 若A[i]≠B[j],则ED[i][j]=min?(ED[i-1][j-1],ED[i][j-1],ED[i-1][j])+1。

编辑距离越小,说明两个字符串越相似。反之,越不相似。

90075665

赞(0)
【声明】:本博客不参与任何交易,也非中介,仅记录个人感兴趣的主机测评结果和优惠活动,内容均不作直接、间接、法定、约定的保证。访问本博客请务必遵守有关互联网的相关法律、规定与规则。一旦您访问本博客,即表示您已经知晓并接受了此声明通告。