網盛創新研究院 - AI、區塊鏈、云計算、大數據技術的研究與應用交流平臺!

網盛創新研究院/百科/正文

主成分分析

相關新聞/

Related Info

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學數量地理學分子動力學模擬、數學建模、數理分析等學科中均有應用,是一種常用的多變量分析方法。

原理:

    在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。

    設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

    基本思想

    主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。

    主成分分析,是考察多個變量間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。

    最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。 

    步驟

    Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp

    其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特征值所對應的特征向量,ZX1, ZX2, ……, ZXp是原始變量經過標準化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標準化,本文所采用的數據就存在量綱影響[注:本文指的數據標準化是指Z標準化]。

    A = (aij)p×m = (a1,a2,…am),Rai = λiai,R為相關系數矩陣,λi、ai是相應的特征值和單位特征向量,λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。

    進行主成分分析主要步驟如下:

    1. 指標數據標準化(SPSS軟件自動執行);

    2. 指標之間的相關性判定;

    3. 確定主成分個數m;

    4. 主成分Fi表達式;

    5. 主成分Fi命名。 

    (主成分分析法的計算步驟:

    1.jpg














    )

    主成分分析法的基本原理

    主成分分析法是一種降維的統計方法,它借助于一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數上表現為將原隨機向量的協方差陣變換成對角形陣,在幾何上表現為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p 個正交方向,然后對多維變量系統進行降維處理,使之能以一個較高的精度轉換成低維變量系統,再通過構造適當的價值函數,進一步把低維系統轉化成一維系統。

    主成分分析的原理是設法將原來變量重新組合成一組新的相互無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的總和變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。

    主成分分析的主要作用

    概括起來說,主成分分析主要由以下幾個方面的作用。

    1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。

    2.有時可通過因子負荷aij的結論,弄清X變量間的某些關系。

    3.多維數據的一種圖形表示方法。我們知道當維數大于3時便不能畫出幾何圖形,多元統計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。

    4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。

    5.用主成分分析篩選回歸變量。回歸變量的選擇有著重的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。 


    標簽:
    關于我們創新研究院大講堂服務介紹
    ? 生意寶(002095) 版權所有  浙公網安備 33010002000015號 工商執照 浙ICP證  網絡工商
    韩国色情禁片视频床,玉女聊斋1998 免费观看,韩国禁片大全电影在线 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>