網盛創新研究院 - AI、區塊鏈、云計算、大數據技術的研究與應用交流平臺!

網盛創新研究院/百科/正文

相似度學習算法

相關新聞/

Related Info


Minkowski Distance

mathrm{L}_p(mathbf{x}_i, mathbf{x}_j)=sqrt[p]{sum_{k=1}^{n}left(x_{i}^{(l)}-x_{j}^{(l)}right)^{p}}

  • p=1:Manhattan Distance

  • p=2:Euclidean Distance

  • p rightarrow infty:Chebyshev Distance

Euclidean Distance

mathrm{L}_2(mathbf{x}_i, mathbf{x}_j) = sqrt{sum_{k=1}^{n}left(x_{i}^{(l)}-x_{j}^{(l)}right)^{2}}

Manhattan Distance

mathrm{L}_{1}(mathbf{x}_i, mathbf{x}_j)=sum_{l=1}^{n}left|x_{i}^{(l)}-x_{j}^{(l)}right|

Chebyshev Distance

mathrm{L}_{infty}(mathbf{x}_i, mathbf{x}_j)=max _{l}left|x_{i}^{(l)}-x_{j}^{(l)}right|

Cosine Distance

cos (theta)=frac{A B}{|mathrm{A} | mathrm{B}|} = frac{sum_{i=1}^{n} A_{i} times B_{i}}{sqrt{sum_{i=1}^{n}left(A_{i}right)^{2}} times sqrt{sum_{i=1}^{n}left(B_{i}right)^{2}}}

Mahalanobis Distance

  • 要求樣本數要大于維數,否則無法求協方差矩陣
    有M個樣本向量X1~Xm,協方差矩陣記為S,均值記為向量μ,則其中樣本向量X到u的馬氏距離表示為:
    mathrm{D}(mathrm{X})=sqrt{(X-mu)^{T} S^{-1}(X-mu)}
    其中向量X_{i}, X_{j}之間的馬氏距離定義為:
    mathrm{D}left(X_{i}, X_{j}right)=sqrt{left(X_{i}-X_{j}right)^{T} S^{-1}left(X_{i}-X_{j}right)}
    若協方差矩陣是單位矩陣(各個樣本向量之間獨立同分布),則公式就成了歐式距離:
    mathrm{D}left(X_{i}, X_{j}right)=sqrt{left(X_{i}-X_{j}right)^{T}left(X_{i}-X_{j}right)}

Hamming Distance

兩個等長字符串s1與s2之間的漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數。例如字符串“1111”與“1001”之間的漢明距離為2。

Pearson Correlation Coefficient

rho=frac{operatorname{Cov}(X, Y)}{sigma_{X} sigma_{Y}}

Informationentropy

n是類別數,pleft(x_{i}right)是第i類的概率
H=-sum_{i=1}^{n} pleft(x_{i}right) log _{2} pleft(x_{i}right)

Jaccard Similarity Coefficient

  • 相似系數
    mathrm{J}(mathrm{A}, mathrm{B})=frac{|mathrm{A} cap mathrm{B}|}{|mathrm{A} cup mathrm{B}|}

  • 杰卡德距離
    mathrm{J}_{delta}(mathrm{A}, mathrm{B})=1-mathrm{J}(mathrm{A}, mathrm{B})=frac{|mathrm{A} cup mathrm{B}|-|mathrm{A} cap mathrm{B}|}{|mathrm{A}cupmathrm{B}|}

Naive Bayes

mathrm{P}(mathrm{B} | mathrm{A})=frac{P(mathrm{A} | mathrm{B}) mathrm{P}(mathrm{B})}{mathrm{P}(mathrm{A})}

f-divergence Distance

如果P和Q被定義成空間中的兩個概率分布,則f散度被定義為:

一些通用的散度,如KL-divergence, Hellinger distance, 和total variation distance,都是f散度的一種特例。只是f函數的取值不同而也。


Hellinger Distance

1 定義

  1.1 度量理論

    為了從度量理論的角度定義Hellinger距離,我們假設P和Q是兩個概率測度,并且它們對于第三個概率測度λ來說是絕對連續的,則P和Q的Hellinger距離的平方被定義如下:

這里的dP /  和 dQ / dλ分別是P和Q的Radon–Nikodym微分。這里的定義是與λ無關的,因此當我們用另外一個概率測度替換λ時,只要P和Q關于它絕對連續,那么上式就不變。為了簡單起見,我們通常把上式改寫為:

  1.2 基于Lebesgue度量的概率理論

    為了在經典的概率論框架下定義Hellinger距離,我們通常將λ定義為Lebesgue度量,此時dP /  和 dQ / dλ就變為了我們通常所說的概率密度函數。如果我們把上述概率密度函數分別表示為 f 和 g ,那么可以用以下的積分形式表示Hellinger距離:

上述等式可以通過展開平方項得到,注意到任何概率密度函數在其定義域上的積分為1。

根據柯西-施瓦茨不等式(Cauchy-Schwarz inequality),Hellinger距離滿足如下性質:

  1.3 離散概率分布

對于兩個離散概率分布 P=(p1,p2,...,pn)和 Q=(q1,q2,...,qn),它們的Hellinger距離可以定義如下:

 

上式可以被看作兩個離散概率分布平方根向量的歐式距離,如下所示:

也可以寫成:


Bhattacharyya Distance

在統計中,Bhattacharyya距離測量兩個離散或連續概率分布的相似性。它與衡量兩個統計樣品或種群之間的重疊量的Bhattacharyya系數密切相關。Bhattacharyya距離和Bhattacharyya系數以20世紀30年代曾在印度統計研究所工作的一個統計學家A.  Bhattacharya命名。同時,Bhattacharyya系數可以被用來確定兩個樣本被認為相對接近的,它是用來測量中的類分類的可分離性。

對于離散概率分布 p和q在同一域 X,巴氏距離被定義為:

其中BC(p,q)是Bhattacharyya系數:

從公式可以看出,Bhattacharyya系數BC(P,Q)可以和前面的Hellinger距離聯系起來,此時Hellinger距離可以被定義為:

 

因此,求得巴氏系數之后,就可以求得巴氏距離和Hellinger距離


Maximum Mean Discrepancy

最大均值差異(Maximum mean discrepancy),度量在再生希爾伯特空間中兩個分布的距離,是一種核學習方法。兩個隨機變量的距離為:

 

其中k(.)是映射,用于把原變量映射到高維空間中。X,Y表示兩種分布的樣本,F表示映射函數集。

基于兩個分布的樣本,通過尋找在樣本空間上的映射函數K,求不同分布的樣本在K上的函數值的均值,通過把兩個均值作差可以得到兩個分布對應于K的mean  discrepancy。尋找一個K使得這個mean discrepancy有最大值,就得到了MMD。最后取MMD作為檢驗統計量(test  statistic),從而判斷兩個分布是否相同。如果這個值足夠小,就認為兩個分布相同,否則就認為它們不相同。更加簡單的理解就是:求兩堆數據在高維空間中的均值的距離。

近年來,MMD越來越多地應用在遷移學習中。在遷移學習環境下訓練集和測試集分別取樣自分布p和q,兩類樣本集不同但相關。我們可以利用深度神經網絡的特征變換能力,來做特征空間的變換,直到變換后的特征分布相匹配,這個過程可以是source  domain一直變換直到匹配target domain。匹配的度量方式就是MMD。


Wasserstein Distance

Wasserstein 距離,也叫Earth Mover's Distance,推土機距離,簡稱EMD,用來表示兩個分布的相似程度。

Wasserstein distance 衡量了把數據從分布p“移動成”分布q時所需要移動的平均距離的最小值(類似于把一堆土從一個形狀移動到另一個形狀所需要做的功的最小值)

假設有兩個工地P和Q,P工地上有m堆土,Q工地上有n個坑,現在要將P工地上的m堆土全部移動到Q工地上的n個坑中,所做的最小的功。

每堆土我們用一個二元組來表示(p,w),p表示土堆的中心,w表示土的數量。則這兩個工地可表示為:

每個土堆中心pi到每個土坑中心qj都會有一個距離dij,則構成了一個m*n的距離矩陣。

那么問題就是我們希望找到一個流(flow),當然也是個矩陣[fij],每一項fij代表從pi到qj的流動數量,從而最小化整體的代價函數:

問題描述清楚了:就是把P中的m個坑的土,用最小的代價搬到Q中的n個坑中,pi到qj的兩個坑的距離由dij來表示。fij是從pi搬到qj的土的量;dij是pi位置到qj位置的代價(距離)。要最小化WORK工作量。EMD是把這個工作量歸一化以后的表達,即除以對fij的求和。

 

 EMD公式:



sim1.png

sim2.png

sim3.png

sim5.png


sim6.png


關于我們創新研究院大講堂服務介紹
? 生意寶(002095) 版權所有  浙公網安備 33010002000015號 工商執照 浙ICP證  網絡工商
韩国色情禁片视频床,玉女聊斋1998 免费观看,韩国禁片大全电影在线 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>