握住科學鑰匙 打開科學之門

首頁 > 正文

正態分布及其應用

2018-11-08 07:00  來源: 新華網

隨著計算機的廣泛使用和人工智能時代的來臨,數據量也越來越龐大。如何處理這些數據?如何從數據中發現規律,提煉有價值的信息?這些都是非常重要的問題。為此,很多人開始從事這些問題的研究工作,他們被稱為數據挖掘工程師。現在,讓我們一起來探索數據挖掘中的奧妙。

舉一個身邊的例子。我們先觀察某中學男生的身高數據,從中指出身高最高和最矮的同學,或者算出他們身高的平均值。之後,如果我們想要知道男生身高數據的分布情況,比如1.7米至1.75米之間,有多少人,佔所有男生的比例是多少,我們應該怎麼做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區間等分成若幹組,統計每一組男生的人數和頻率。然後,在平面直角坐標係中,用橫坐標代表身高,縱坐標是每個小組的頻率除以相應的組距,並繪制出相應的矩形,每個矩形的面積就是該小組的頻率。

圖 1

從身高的頻率分布直方圖中我們可以看到,數據大致呈現“中間高,兩邊低”的特點。在十六七歲的男生中,超過1.85米和低于1.5米的人數都非常少,而大部分人的身高均集中在1.6米至1.75米之間。因此,雖然每個人的身高具有隨機性,但同一年齡同一性別的人群身高分布是有規律的。

這種規律性只在身高數據中體現,還是在自然界中普遍存在呢?英國生物統計學家法蘭西斯·高爾頓做了一個實驗。他在一塊木板上畫了一塊等腰三角形,並在三角形區域內釘上n+1層釘子。第1層釘2個釘子,第2層釘3個釘子,下面每一層都比上一層增加一個釘子,上一層的每個釘子都在下一層兩個釘子的中間位置。之後,在第n+1層的下面,放入n+2個球槽。

建成後,高爾頓從頂端逐個扔下小球,這些小球在下落過程中與眾多釘子發生碰撞,每次碰撞都會使得小球隨機向左或向右下落。隨著小球個數的增加,掉入各個球槽內的小球的個數會越來越多,堆積的高度也會不斷增加。最終,如圖2所示,各球槽將呈現出“中間高,兩邊低”的分布,與我們的身高數據分布非常相似。

圖 2

並且,如果進一步增加釘子的層數和小球個數,球槽中小球分布形成的曲線就會越來越光滑,最終趨向于圖3“中間高,兩邊低”的“鐘型”曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。

圖 3

我們通過觀察這條曲線可以發現,正態曲線是單峰的,有一條對稱軸。對稱軸所在的位置正是數據的平均值,用字母μ表示,例如我們的平均身高等。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。

圖 4

圖5中兩條正態曲線的平均值相同,但是形狀不同,實線的正態曲線更加“矮胖”,而虛線的正態曲線更加“高瘦”,我們用另一個希臘字母σ(σ>0)來刻畫這種“矮胖”或“高瘦”的程度。假設這兩條曲線分別代表了兩個班學生成績的分布情況。兩個班的平均成績相差較小,但虛線對應的班級學生成績更集中于平均成績附近,它的σ小,而實線對應的班級學生成績相對分散,它的σ大,可能出現兩極分化的情況。所以,σ反映了數據的離散程度,它代表了數據的標準差。知道了μ和σ這兩個參數,我們就能畫出正態曲線。

圖 5

我們也可以從另一個角度理解σ。正態曲線與直線χ=a,χ=b和x軸所圍成的圖像面積代表了數據在區間(a,b)所佔的比例。假設工廠生産某種零件,要求孔徑為10mm,但實際生産中會有誤差。如果孔徑的分布近似服從平均值為10mm,標準差為0.1mm的正態分布。那麼如圖7所示,孔徑落在9.9到10.1這一范圍的比例應該是0.683,這是數據分布的主體。孔徑落在9.3到10.3這一范圍的比例應該是0.997,落在該區間之外的機率非常小。如果出現比較多的産品超出了這一范圍,那麼我們可以懷疑生産過程出現了問題,這稱為“3σ原則”。在生産過程中,我們可以應用這一原則進行産品質量檢測。

圖 6

圖 7

圖 7

圖 7

正態分布在統計中是非常常用的分布,例如在醫學上,可以應用正態分布估計人體的某些生理指標,比如白細胞數的正常值范圍,白細胞數在正常人群中近似服從正態分布。我們可以制定一個上限和下限,比如95%的人在正常范圍之內,而超出這一范圍的人,我們就認為需要對其進行特殊關注。

本作品為“科普中國-科學原理一點通”原創,轉載時務請注明出處。

作者: 趙存宇   [責任編輯: 鐘艷平]

相關稿件

正態分布