加載中........
×

金多宝二肖二码金多宝四肖中特:數據中的異常值,應該直接刪除嗎?

2019-5-20 作者:馮國雙   來源:小白學統計 我要評論2
Tags: 異常值  

不少人曾問我:我的數據中有異常值,是不是應該刪除?要回答這個問題,我們必須從異常值的概念來談起??贍苡械娜司醯靡斐V島芎美斫?,不就是“異?!鋇鬧德??關鍵是,怎樣才算異常呢?

例:在10個數據中(下圖黑色點)人為加入紅、綠、紫色的3個點,它們都是異常值嗎?



異常值其實是一個較為寬泛的概念,它至少包含了三種情形:

(1) 離群值(outliner)

離群值是指從因變量y的角度來看屬于異常的值,如圖中的紅色點和綠色點,偏離y的均值較其它點更遠。

離群值通常采用學生化殘差來判斷。

(2) 高杠桿值(high leverage)

高杠桿值是指從自變量x的角度來看屬于異常的值,如圖中的紫色點和綠色點,在x軸上偏離x的均值較遠。

高杠桿值通常采用杠桿值來判斷。

(3) 強影響值(influential observation)

強影響值是指對模型影響較大的值,也就是說,如果刪除了該值,會導致模型發生很大變化(如系數值改變較大)。

強影響點通常采用COOK'D值、DFBETAS和DFFITS來判斷。

下圖比較了不同異常值對模型擬合效果的影響。圖中黑色實線表示不含這3個異常值的擬合線,綠色、紅色、紫色虛線分別表示含綠色點、紅色點、紫色點時的擬合線。



不難看出,含有綠色點時,對模型擬合影響幾乎不大(與黑色實線幾乎重合);含有紫色點時,擬合線被向下拉低,即回歸系數遠低于黑色實線;含有紅色點時,擬合線也被拉低。

如果要判斷的話,綠色點雖然從x方向和y方向上都偏離均值,但卻不是強影響點;紫色點和紅色點才是強影響點,因為單獨的任一點便可以導致系數發生很大變化。

我們現在已經明白了如何判斷一個點是不是異常點,緊接著的問題就是,如果我發現了異常點,應該怎么處理?不少人習慣簡單粗暴的方法,即直接刪除。這并不是最好的辦法,有時甚至會讓你錯過一些真正的規律。

當你發現異常值后,一定要先分清是什么原因導致的異常值,然后再考慮如何處理。

如果是屬于錄入錯誤或實驗室記錄錯誤等,這很容易,立刻修改即可。

如果不是錄入錯誤,而是確實存在這樣的異常值,這時需要根據不同情形來分別對待。

首先,如果這一異常值并不代表一種規律性的,而是極其偶然的現象,或者說你并不想研究這種偶然的現象,這時可以將其刪除。例如,你要研究身高與血壓的關系,但你的研究人群中恰好納入了姚明,這種情況下,可以將其刪除,只用其他人進行分析。因為這并不代表一種規律性的現象,而且你可能也不想研究特殊的情況。

其次,如果異常值存在且代表了一種真實存在的現象,那就不能隨便刪除。比如調查了100個村的癌發病率,可能確實有個別村莊的發病率遠遠高于其它村,這時就不能隨便刪除,而是要把這些異常點納入,重新擬合模型,研究其規律。

例:某實驗室檢測了細菌培養菌群數量與時間的關系,試進行分析。

很明顯,下圖中的兩個紅點是異常點,可以讓線性回歸的系數發生劇烈變化。



那這種情況下是否需要刪除這兩個值呢?首先看一下這兩個值是否實驗誤差,如果這兩個值是準確的,那它很可能代表了一種真實情況。也就是說,在短期內增長緩慢,但是到了一個關鍵時間點后(如30),種群數量就會劇增。

此時如果你直接刪除這兩個點,就無法真正發現這種規律。所以我們可以納入這兩個點,但是不能擬合線性回歸,而是要根據其形狀擬合非線性模型。如此處可以考慮對時間time進行指數變換,可以發現變換后模型更能有效地擬合數據。




小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

只有APP中用戶,且經認證才能發表評論!馬上下載

184****9840

學習了,謝謝分享。

(來自:梅斯醫學APP)

2019-5-22 21:57:32 回復

SCI我的夢

學習了

(來自:梅斯醫學APP)

2019-5-21 7:25:41 回復

玄机网四肖中特