Ⅰ 分析股票時單獨一天歷史數據缺失 怎麼處理
一共有2個辦法:
1、進入數據管理,下載全部數據!
2、進入文件夾,找到DATA,然後再DAY裡面找到該股的代碼,將這個股單獨刪除,然後再開軟體,軟體會自動補充數據!
Ⅱ 缺失值在回歸前一般是要處理的,有多種處理方式.1均值替代;2多重補漏分析
(一)個案剔除法(Listwise Deletion)
最常見、最簡單的處理缺失數據的方法是用個案剔除法(listwise
deletion),也是很多統計(如SPSS和SAS)默認的缺失值處理方法。在這種方法中如果任何一個變數含有缺失數據的話,就把相對應的個案從分析中剔除。如果缺失值所佔比例比較小的話,這一方法十分有效。至於具體多大的缺失比例算是「小」比例,專家們意見也存在較大的差距。有學者認為應在5%以下,也有學者認為20%以下即可。然而,這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在樣本量較小的情況下,刪除少量對象就足以嚴重影響到數據的客觀性和結果的正確性。因此,當缺失數據所佔比例較大,特別是當缺數據非隨機分布時,這種方法可能導致數據發生偏離,從而得出錯誤的結論。
(二)均值替換法(Mean Imputation)
在變數十分重要而所缺失的數據量又較為龐大的時候,個案剔除法就遇到了困難,因為許多有用的數據也同時被剔除。圍繞著這一問題,研究者嘗試了各種各樣的辦法。其中的一個方法是均值替換法(mean
imputation)。我們將變數的屬性分為數值型和非數值型來分別進行處理。如果缺失值是數值型的,就根據該變數在其他所有對象的取值的平均值來填充該缺失的變數值;如果缺失值是非數值型的,就根據統計學中的眾數原理,用該變數在其他所有對象的取值次數最多的值來補齊該缺失的變數值。但這種方法會產生有偏估計,所以並不被推崇。均值替換法也是一種簡便、快速的缺失數據處理方法。使用均值替換法插補缺失數據,對該變數的均值估計不會產生影響。但這種方法是建立在完全隨機缺失(MCAR)的假設之上的,而且會造成變數的方差和標准差變小。
(三)熱卡填充法(Hotdecking)
對於一個包含缺失值的變數,熱卡填充法在資料庫中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。最常見的是使用相關系數矩陣來確定哪個變數(如變數Y)與缺失值所在變數(如變數X)最相關。然後把所有個案按Y的取值大小進行排序。那麼變數X的缺失值就可以用排在缺失值前的那個個案的數據來代替了。與均值替換法相比,利用熱卡填充法插補數據後,其變數的標准差與插補前比較接近。但在回歸方程中,使用熱卡填充法容易使得回歸方程的誤差增大,參數估計變得不穩定,而且這種方法使用不便,比較耗時。
(四)回歸替換法(Regression Imputation)
回歸替換法首先需要選擇若干個預測缺失值的自變數,然後建立回歸方程估計缺失值,即用缺失數據的條件期望值對缺失值進行替換。與前述幾種插補方法比較,該方法利用了資料庫中盡量多的信息,而且一些統計(如Stata)也已經能夠直接執行該功能。但該方法也有諸多弊端,第一,這雖然是一個無偏估計,但是卻容易忽視隨機誤差,低估標准差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二,研究者必須假設存在缺失值所在的變數與其他變數存在線性關系,很多時候這種關系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人於1987年建立起來的一種數據擴充和統計分析方法,作為簡單估算的改進產物。首先,多重估算技術用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數據的不確定性。然後,用標準的統計分析過程對多次替換後產生的若干個數據集進行分析。最後,把來自於各個數據集的統計結果進行綜合,得到總體參數的估計值。由於多重估算技術並不是用單一的值來替換缺失值,而是試圖產生缺失值的一個隨機樣本,這種方法反映出了由於數據缺失而導致的不確定性,能夠產生更加有效的統計推斷。結合這種方法,研究者可以比較容易地,在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷。NORM統計可以較為簡便地操作該方法
Ⅲ 股票收盤價為缺失值時移動平均值該如何處理
股票移動平均線是按照實際交易周期計算的,以日線為例,如果當日沒有交易,就不計算,有幾天計算幾天.
例如10天內肯定會有周六周日,周六周日也不交易也不用計算在內,你看股票走勢圖上面那個時間不是連續的,所以說250日均線相當於年線
Ⅳ spss問卷分析中的缺失值如何處理
缺失值(missing data)大致上可分為三種型態,MNAR (missing not at random)指缺失值不是隨機的,有可能是問卷的設計,比如說,年收入大於十萬請回答A題,小於十萬請回答B題,這類的缺失是設計上的,不能稱作隨機缺失.另一種叫MAR(missing at random),指缺失和前面的回答有某些程度的相關,這類的缺失很難界定或測試,第三種叫MCAR(missing completely at random),這種就是稱作隨機的缺失,這種缺失和其它的數據完全是獨立的.第三種缺失相對的比較容易處理. 如果樣本夠大的話,把有缺失的樣本完全去除,這種方法叫作listwise deletion.如果能夠確信樣本的缺失值是MCAR,你又沒有足夠的樣本的話,可用填補的方法(imputation).通常可填上平均值,或者回歸的預測值,這兩種方法都有它的缺點.SPSS有個MISSING DATA MODULE,就是用EM(expectation and maximization)的填補,它的方法是把有同樣缺失的樣本放在同一組,計算它的covariance matrix,然後再跟據每組的樣本數來較正它對整個樣本的權重(weight),從這里再重新填補每個缺失值.這重方法算是現在比較精確的缺失值填補的方法.
Ⅳ 數據清理中,處理缺失值的方法有哪些
1.
刪除含有缺失值的個案
2.
可能值插補缺失值
(1)均值插補
(2)利用同類均值插補。
(3)極大似然估計(Max
Likelihood
,ML)
(4)多重插補(Multiple
Imputation,MI)
Ⅵ (求助!!)spss多分類變數數據缺失值的處理
我個人覺得有些缺失值是沒有辦法處理的,像你這個裡面的jobs,這種屬於背景變數類型的,很難以通過一定的數據分析方法來預測,除非你能夠找出job的不同類型數據 與其中某個變數緊密相關,然後可以通過這兩個相關性建立一個模型預測,否則的話 這種缺失性 只能在分析時將其忽略了
其他一些如果有些在這個數據表中是因變數性的,可以通過其他一些數據指標進行預測的,就找出他們之間的關系模型,對其進行預測,反正缺失值處理是個非常復雜的事情,要針對每個變數的不同情況來看
還要分析下每個缺失是屬於隨機缺失還是非隨機缺失,如果是隨機缺失的話,對結果影響不大,你完全可以不理它也沒關系,如果是非隨機的缺失,那一方面很難預測,另一方面,對結果有影響