随机插补法:从总体中随机抽取某几个样本代替缺失样本 。
多重填补法:包含m个插补值的向量代替每一个缺失值的过程, 要求m大于等于20 。 m个完整数据集合能从插补向量中创建 。

文章插图
6、异常值处理
异常值:指一组测定值中与平均值的偏差超过两倍标准差的测定值 。
对异常值处理, 需要具体情况具体分析, 一般而言, 异常值的处理方法常用有以下3种:
(1) 不处理
(2)用平均值替代
利用平均值来代替异常值, 损失信息小, 简单高效 。
(3)视为缺失值
将异常值视为缺失值来处理, 采用处理缺失值的方法来处理异常值 。
7、拆分单元格
【10个数据清洗小技巧 数据清洗的方法包括哪些】按照以下步骤对合并单元格进行拆分并填充:
(1)点击取消合并单元格

文章插图
(2)空白单元格定位:点击定位-选择空白

文章插图
(3)写上=上个单元格

文章插图
(4)Ctrl+Enter
8、分组计算
通过VLOOKUP函数将字段合在一起用于计算 。
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

文章插图
9、固定宽度截取
固定宽度截取:
mid(text,start_num,num_chars);
其中:text表示要截取的字符串, start_num表示从第几位字符串开始截取, num_chars表示要截取的字符数 。

文章插图
10、二维表转换
(1)插入数据透视表
(2)选择“使用多重合并计算区域”

文章插图
(3)点击“选定区域”

文章插图
(4)选择所需要处理的区域后点击“添加”按钮
(5)点击“完成”后点击“确认”
(6)弹出数据透视的页面, 双击右下角的数字即可

文章插图
最后, 再强调一下, 在进行数据清洗之前, 一定一定一定要记得备份你的数据源!
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
