数据科学是一门新兴的以数据为研究中心的学科。作为一门学科,数据科学以数据的广泛
性和多样性为基础,探寻数据硏究的共性。数据科学也是一门关于数据工程的学科,它需要同
时具备理论基础和工程经验,需要掌握各种工具的用法。数据科学主要包括两个方面:用数据
的方法来硏究科学和用科学的方法来研究数据。数据清洗是数据科学家完成数据分析和处理任
务过程中必须面对的重要环。具体来说,数据科学的一般处理过程包括如下几个步骤:
(1)问题陈述:明确需要解决的问题和任务。
(2)数据收集与存储:通过多种手段采集和存放来自众多数据源的数据。
(3)数据清洗:对数据进行针对性的整理和规范,以便于后面的分析和处理。
(4)数据分析和挖掘:运用特定模型和算法来寻求数据中隐含的知识和规律。
(5)数据呈现和可视化:以恰当的方式呈现数据分析和挖掘的结果
(6)科学决策:根据数据分析和处理结果来决定问题的解决方案。
来自多样化数据源的数据内容并不完美,存在着许多“脏数据”,即数据不完整、有
缺失,存在错误和重复的数据,数据中有不一致和冲突等缺陷。数据清洗就是对数据进行
审查和校验,发现不准确、不完整或不合理的数据,进而删除重复信息、纠正存在的错误,
并保持数据的一致性、精确性、完整性和有效性,以提高数据的质量。
数据清洗并没有统一的定义,其定义依赖于具体的应用领域。从广义上讲,数据清洗
是将原始数据进行精简以去除冗余和消除不一致性,并使剩余的数据转换成可接收的标准
格式的过程。