網盛創新研究院 - AI、區塊鏈、云計算、大數據技術的研究與應用交流平臺!

網盛創新研究院/百科/正文

卡方檢驗

相關新聞/

Related Info

卡方檢驗是用途非常廣的一種假設檢驗方法,它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

步驟:

(1)提出原假設:

H0:總體X的分布函數為F(x).

如果總體分布為離散型,則假設具體為

H0:總體X的分布律為P{X=xi}=pi, i=1,2,...

(2)將總體X的取值范圍分成k個互不相交的小區間A1,A2,A3,…,Ak,如可取

A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),

其中a0可取-∞,ak可取+∞,區間的劃分視具體情況而定,但要使每個小區間所含的樣本值個數不小于5,而區間個數k不要太大也不要太小。

(3)把落入第i個小區間的Ai的樣本值的個數記作fi,成為組頻數(真實值),所有組頻數之和f1+f2+...+fk等于樣本容量n。

(4)當H0為真時,根據所假設的總體理論分布,可算出總體X的值落入第i 個小區間Ai的概率pi,于是,npi就是落入第i個小區間Ai的樣本值的理論頻數(理論值)

(5)當H0為真時,n次試驗中樣本值落入第i個小區間Ai的頻率fi/n與概率pi應很接近,當H0不真時,則fi/n與pi相差很大。基于這種思想,皮爾遜引進如下檢驗統計量

  

,在0假設成立的情況下服從自由度為k-1的卡方分布。

檢驗方法:

獨立樣本四格表

自由度為1

假設有兩個分類變量X和Y,它們的值域分別為{x1, x2}和{y1, y2},其樣本頻數列聯表為


y1

y2

總計

x1

a

b

a+b

x2

c

d

c+d

總計

a+c

b+d

a+b+c+d

若要推斷的論述為H1:“X與Y有關系”,可以利用獨立性檢驗來考察兩個變量是否有關系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數據算出檢驗統計量  的值。 的值越大,說明“X與Y有關系”成立的可能性越大。

0.50

0.40

0.25

0.15

0.10

k

0.455

0.708

1.323

2.072

2.706

0.05

0.025

0.010

0.005

0.001

k

3.841

5.024

6.635

7.879

10.828

當表中數據a,b,c,d都不小于5時,可以查閱下表來確定結論“X與Y有關系”的可信程度:

例如,當“X與Y有關系”的 的值為6.109,根據表格,因為5.024<6.109<6.635,所以“X與Y有關系”成立的概率在1-0.01到1-0.025之間。



化妝15(55)95(55)110
不化妝85(45)5(45)90

100100200

如果性別和化妝與否沒有關系,四個格子應該是括號里的數(期望值,用極大似然估計55=100*110/200,其中110/200可理解為化妝的概率,乘以男人數100,得到男人化妝概率的似然估計),這和實際值(括號外的數)有差距,理論和實際的差距說明這不是隨機的組合。

應用擬合度公式

  =  129.3>10.828

顯著相關,作此推論犯錯的概率p>0.999,即99.9%。

注:獨立四格表的擬合度公式可以寫成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)

總結:獨立四格表資料檢驗

四格表資料的卡方檢驗用于進行兩個率或兩個構成比的比較。

1. 專用公式:

若四格表資料四個格子的頻數分別為a,b,c,d,則四格表資料卡方檢驗的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用擬合度公式)

自由度v=(行數-1)(列數-1)=1

2. 應用條件:

要求樣本含量應大于40且每個格子中的理論頻數不應小于5。當樣本含量大于40但有1=<理論頻數<5時,卡方值需要校正,當樣本含量小于40或理論頻數小于1時只能用確切概率法計算概率。


資料檢驗:

(自由度df=(C-1)(R-1))

行×列表資料的卡方檢驗用于多個率或多個構成比的比較。

1. 專用公式:

r行c列表資料卡方檢驗的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]

2. 應用條件:

要求每個格子中的理論頻數T均大于5或1<T<5的格子數不超過總格子數的1/5。當有T<1或1<T<5的格子較多時,可采用并行并列、刪行刪列、增大樣本含量的辦法使其符合行×列表資料卡方檢驗的應用條件。而多個率的兩兩比較可采用行X列表分割的辦法。

列聯表資料檢驗

同一組對象,觀察每一個個體對兩種分類方法的表現,結果構成雙向交叉排列的統計表就是列聯表。  

1. R*C 列聯表的卡方檢驗:

R*C 列聯表的卡方檢驗用于R*C列聯表的相關分析,卡方值的計算和檢驗過程與行×列表資料的卡方檢驗相同。

2. 2*2列聯表的卡方檢驗:

2*2列聯表的卡方檢驗又稱配對記數資料或配對四格表資料的卡方檢驗,根據卡方值計算公式的不同,可以達到不同的目的。當用一般四格表的卡方檢驗計算時,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c)(b+d)],此時用于進行配對四格表的相關分析,如考察兩種檢驗方法的結果有無關系;當卡方值=(|b-c|-1)2/(b+c)時,此時卡方檢驗用來進行四格表的差異檢驗,如考察兩種檢驗方法的檢出率有無差別。

列聯表卡方檢驗應用中的注意事項同R*C表的卡方檢驗相同。


標簽:
關于我們創新研究院大講堂服務介紹
? 生意寶(002095) 版權所有  浙公網安備 33010002000015號 工商執照 浙ICP證  網絡工商
韩国色情禁片视频床,玉女聊斋1998 免费观看,韩国禁片大全电影在线 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>