当数据质量校验完成后,针对有问题的数据要进行的是数据清洗和转换,另外还包括对正常数据的转换。数据清洗的主要作用包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造和数据压缩。
1. 纠正错误
错误数据是数据源环境中经常出现的一类问题。数据错误的形式包括:
- 数据值错误:数据直接是错误的,例如超过固定域集、超过极值、拼写错误、属性错误、源错误等。
- 数据类型错误:数据的存储类型不符合实际情况,如日期类型的以数值型存储,时间戳存为字符串等。
- 数据编码错误:数据存储的编码错误,例如将UTF-8写成UTF-80。
- 数据格式错误:数据的存储格式问题,如半角全角字符、中英文字符等。
- 数据异常错误:如数值