頂10篇文章

土豆
烏龜
薑黃
Gmail
第二次世界大戰
DirectX
光合作用
菲律賓
第一次世界大戰
板岩

News:

密度估計

可能性 并且 統計, 密度估計 是估計的建築,根據觀察 數據一看不見強調 可能性密度函數. 看不見的密度函數被重視,當多人口被分佈的密度; 數據通常被重視作為隨意抽樣從那人口。

使用對密度估計的各種各樣的方法,包括 Parzen窗口 并且範圍 數據成群 技術,包括 矢量量化.

內容

密度估計的例子

我們考慮發生的紀錄 糖尿病. 下列從被引述逐字 數據集 描述:

是至少21年婦女的人口, Pima 印第安遺產和生活在菲尼斯,亞利桑那附近,為糖尿病被測試了根據 世界衛生組織 標準。 數據由糖尿病和消化和腎病美國全國學院收集。 我們使用了532個完全紀錄。

在本例中,我們修建三個密度估計為「glu」 (血漿 葡萄糖 集中),一个 有條件 在糖尿病出現,第二有條件在缺乏糖尿病和三不有條件在糖尿病。 有條件密度估計是然後使用修建可能性糖尿病有條件在「glu」。

「glu」數據從許多包裹得到了 R編程語言. 在之內『R, ?Pima.tr 并且 ?Pima.te 給數據的一個全部帳戶。

手段 「glu」在糖尿病事例是143.1,并且標準偏差是31.26。 「glu」手段在非糖尿病事例是110.0,并且標準偏差是24.29。 從此我們看見,在這個數據集,糖尿病案件同「glu聯繫在一起的」更加了不起的水平。 這將由估計的密度函數的劇情做清除器。

第一個圖顯示密度估計 p(glu | diabetes=1), p(glu | diabetes=0),和 p(glu)。 密度估計是仁密度估計使用一個高斯仁。 即高斯密度函數被安置在每個數據點,并且密度函數的總和被計算在數據的範圍。

估計的密度 p(glu | diabetes=1) (紅色), p(glu | diabetes=0) (藍色),和 p(glu) (黑色)。

從密度「glu」有條件在糖尿病,我們可以得到糖尿病的可能性有條件在「glu」通過 貝斯的規則. 為簡要, 「糖尿病」是省略的「db」。 在這個慣例。

 p (\ mbox {糖尿病} =1|\ mbox {glu})
 = \ frac {p (\ mbox {glu}|\ mbox {db。}=1) \, p (\ mbox {db。}=1)}{p (\ mbox {glu}|\ mbox {db。}=1) \, p (\ mbox {db。}=1) + p (\ mbox {glu}|\ mbox {db。}=0) \, p (\ mbox {db。}=0)}

第二個圖顯示估計的事後機率 p(diabetes=1 | glu)。 從這數據,看起來「glu的」一個增加的水平同糖尿病聯繫在一起。

估計的可能性 p(diabetes=1 | glu)。

例如劇本

跟隨命令 R編程語言 將創造顯示的圖以上。 這些命令可以被輸入在指令提示通過使用剪貼。

圖書館(許多)
數據(Pima.tr)

數據(Pima.te)

 Pima <- rbind (Pima.tr, Pima.te)
 glu <- Pima [, 『glu』]

 d0 <- Pima [, 『類型』] == 『沒有』
 d1 <- Pima [, 『類型』] == 『是』
 base.rate.d1 <-求和(d1)/(總和(d1) +總和(d0))

glu.density <-密度(glu)
 glu.d0.density <-密度(glu [d0])
 glu.d1.density <-密度(glu [d1])

 approxfun (glu.d0.density$x, glu.d0.density$y) -> glu.d0.f
 approxfun (glu.d1.density$x, glu.d1.density$y) -> glu.d1.f

 p.d.given.glu <-作用(glu, base.rate.d1)
 {
p1 <- glu.d1.f (glu) * base.rate.d1
 p0 <- glu.d0.f (glu) * (1 - base.rate.d1)
 p1/(p0+p1)
}

x <- 1:250
 y <- p.d.given.glu (x, base.rate.d1)
劇情(x, y, type='l', col='red', xlab='glu', ylab='estimated p (糖尿病|glu) 『)

劇情(密度(glu [d0]), col='blue', xlab='glu', ylab='estimate p (glu),
 p (glu|糖尿病), p (glu|糖尿病) 『不是main=NA)
線(密度(glu [d1]), col='red')
線(密度(glu))

參見

參考

  • 布賴恩D。 Ripley。 圖案識別和神經網絡. 劍橋: 劍橋大學出版社1996年。
  • Trevor Hastie,羅伯特Tibshirani和Jerome弗裡德曼。 統計學會的元素. 紐約: Springer 2001年。 國際標準書號0-387-95284-5. (參見第6章。)
  • D.W. 斯科特。 多維分佈的密度估計。 理論、實踐和形象化. 紐約: 威里1992年。
  • B.W. Silverman。 密度估計. 倫敦: chapman和霍爾1986年。
  • J.W. 史密斯, J.E。 Everhart, W.C。 Dickson, W.C。 Knowler和R.S。 Johannes。 「使用ADAP學習算法展望糖尿病mellitus起始」。 在 討論會的行動在計算機應用在衛生保健 (華盛頓1988),編輯。 R.A. Greenes,頁。 261-265. Los Alamitos,加州: IEEE計算機協會新聞1988年。

外部鏈接

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence