发帖
 找回密码
 立即注册
搜索
1 0 0
快问快答 34 1 8 小时前
大家好,我在处理一个数据集时,发现很多数据字段都有缺失值。比如,有些用户的年龄、性别等信息没有填写。这种情况下,我应该怎么处理这些缺失值?直接删除这些数据行吗?有没有更好的方法?


──── 0人觉得很赞 ────

使用道具 举报

如果数据量很大,而且缺失值的数据不多,那可以直接删掉这些有缺失值的行或者列。
用常见值填空
填平均数、中位数或者最常见的数 :假如一列数据是数值型的,比如年龄,算出这列数据的平均数或者中位数,然后用这个数把缺失的年龄填上。要是数据是像性别、颜色这样的分类数据,就用出现次数最多的类别来填。
填一个固定的值 :比如,对于性别缺失的情况,可以统一填 “未知”;对于一些没啥影响的字段,像 “兴趣爱好” 缺失,就填 “无”。
猜一猜
根据数据之间的关系来猜缺失的值。比如一份数据里有 “身高” 和 “体重”,如果少了 “身高”,但有 “体重”,可以按照一般身高体重的比例关系,大致猜一个身高来填。
直接删掉
如果数据量足够大,缺失值所在的数据行或者列缺失比例很高,而且这些缺失的数据对分析目标影响不大,那么可以直接删除含有缺失值的数据行或者列。
您需要登录后才可以回帖 立即登录
高级模式