数据质量在数据分析中的重要性毋庸置疑, 其直接影响数据的产出和数据价值的高低, 通常我们对数据质量的判断主要依据准确性、完整性和一致性三方面 。 但是, 这几点原始数据往往并不具备 。 所以数据清洗成为了数据分析的重要前提, 并且占据了整个数据分析工作中80%的时间 。
那么如何通过数据清洗来提高数据质量呢?接下来小编就来教大家10个数据清洗小技巧, 希望能帮助小伙伴们提高工作效率~
10个数据清洗小技巧
1、准备工作
拿到数据表之后, 先做这些准备工作, 方便之后的数据清洗 。
(1)给每一个sheet页命名, 方便寻找
(2)给每一个工作表加一列行号, 方便后面改为原顺序
(3)检验每一列的格式, 做到每一列格式统一
(4)做数据源备份, 防止处理错误需要参考原数据
(5)删除不必要的空行、空列
2、统一数值口径
这是个无聊而必要的步骤 。 例如我们统计销售任务指标, 有时用合同金额有时用回款金额, 口径经常不统一 。 统计起来就很麻烦 。 所以将不规范的数值改为规范这一步不可或缺 。

文章插图
3、删掉多余的空格
原始数据中如果夹杂着大量的空格, 可能会在我们筛选数据或统计时带来一定麻烦 。 如何去掉多余的空格, 仅在字符间保留一个空格?
(1)手动删除 。 如果只有三五个空格, 这可能是最快的方式 。
(2)函数法
在做数据清洗时, 经常需要去除数据两端的空格, 那么TRIM、LTRIM、RTRIM这3个函数就可以帮到你啦~
TRIM函数:主要是用来去除单元格内容前后的空格, 但不会去除字符之间的空格 。 表达式:=TRIM(文本)
ps:LTRIM、RTRIM与TRIM函数的使用方法一样~
LTRIM函数:用来去除单元格内容左边的空格;RTRIM函数:用来去除单元格内容右边的空格 。
4、字段去重
强烈建议把去重放在去除空格之后, 因为多个空格导致工具认为“顾纳”和“顾 纳”不是一个人, 去重失败 。
按照“数据”-“删除重复项”-选择重复列步骤执行即可 。 (单选一列表示此列数据重复即删除, 多选表示多个字段都重复才删除 。 )

文章插图
5、填补缺失值
由于人工录入或者数据爬虫等多方面的原因, 会出现缺失值的情况, 这就需要我们寻找漏网之“数据”, 填充空缺值 。
如何统计有多少缺失值?
先看ID唯一列有多少行数据, 参考excel右下角的计数功能, 对比就可以知道其他列缺失了多少数据 。
如何定位到所有缺失值?
Ctrl+G,选择定位条件, 然后选择空值 。
缺失值的处理方法:
(1)人工补全 。 适合数据量少的情况 。
(2)删除 。 适用于样本较大的情况, 样本较小时, 可能会影响最终的分析结果 。
(3)根据数据的分布情况, 可以采用均值、中位数、或者众数进行数据填充 。
数据均匀, 均值法填充;数据分布倾斜, 中位数填充 。
(4)用模型计算值来代替缺失值 。
回归:基于完整的数据集, 建立回归方程 。 将已知属性值代入方程来估计未知属性值, 以估计值来进行空值得填充 。
极大似然估计:基于缺失类型为随机缺失得条件下, 假设模型对于完整的样本是正确的, 通过观测数据的边际分布可以对缺失数据进行极大似然估计 。
(5)插补法
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
