數據的清理,,并不是完全刪除與假設無關的原始data,。在進行清理中,如果認為某個set的數據有誤,,或者無關,,可以建立另一個文件夾,將其放入其中,,避免數據的誤判導致數據無法恢復,。數據清理是一件難度較高的工作,因為一旦數據收集完成,,在從中甄別invalid的數據是困難的。一般來說,,數據清理是建立在查找該特定數據是否與其他數據保持完全或者大體一致的基礎之上的,。判定的標準是,數據是否完整,,格式是否正確,,是否具有相關性。
具體操作方法:
第一步:整理dataset,。將你打算展開清理的數據整體按照一定的標準或者規(guī)格有序進行整理,。比如,可以將results作為一個column,,將不同的結果對應放入對應的區(qū)域,。這種方法可以有效提高你的清理數據的速度。
第二步:自行肉眼查看是否有數據不一致的地方??梢圆榭?,每個column是否對應到了特定的不相互包容的數據。如果是,,則可以通過將其相加,,查看是否有遺漏數據。如果否,,則查看是否遺漏的column,。如果數據是從其他地方手動錄入,則需要檢查,,是否在錄入中有明顯錯誤,。如果大部分的數據的區(qū)間均保持了大體一致或者類似,但某個數據出現(xiàn)了極高或者極地點,,則需要檢查該insistent數據是否valid,。
第三步,采用統(tǒng)計學https://www.lxws.net/statistics-daixie.html方法或者圖表深入清理數據,。通過直觀的可視化的表現(xiàn)方式,,能夠讓你在一堆數據中直接看到那個與眾不同的一個。通過 boxplots或者scatterplots,,能夠一眼看出數據的分布,,以及是否存在某個特別高或特別地的data。通過table,,能夠看出數據的分布,,從而能夠幫助你決定采用何種統(tǒng)計學方法進行研究。
通過上述的數據清理,,便能夠大致對數據集進行診斷,。常見的需要刪除或者進一步確認的數據有:重復的data。重復的數據沒有價值,,直接刪除就好,。如果將重復數據kept 在數據集中,將容易導致result的偏差,。某些因素的重要性相比于peer 研究成果會顯得比重不恰當的高,。
invalid data。通過數據清理,,發(fā)現(xiàn)的那些明顯不一致,invalid的數據,。未采集到的數據。missing 數據可能是因為搜集時的遺漏,,也可能因為在設計環(huán)節(jié)的失誤,。應對措施:如果不影響整體結果,可以放任不管;如果對整體形成較大影響,,則需要補充,。 outliners。這是數據中出現(xiàn)的extreme ones,。如果outliners是真實的,,則將成為重點論述的對象。如果outliners是錯誤測量或者計算的結果,,則需要修改,。