数据质量的评价指标主要包括数据的准确性(accuracy)、完整性(completeness)、简洁性(concision)及适用性(applicability),其中数据的准确性、完整性和简洁性是为了保证数据的适用性。下面针对数据质量的主要评价指标进行详细的介绍。
1.准确性
数据的准确性就是要求数据中的噪声尽可能少。为提高数据的准确性,需对数据集进行降噪处理。对于数据中偏离常规、分散的小样本数据,一般可视为噪声或异常数据,可通过最常用的异常值检测方法聚类进行处理。
2.完整性
完整性指的是数据信息是否存在缺失的状况。数据缺失的情况可能是整条数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低,也是数据质量更为基础的一项评估标准。
数据质量的完整性比较容易评估,一般通过数据统计中的记录值和唯一值进行评估。例如,网站日志访问量就是一个记录值,平时的日访问量在1000左右,突然某天降到100,就需要检查数据是否存在缺失了。
3.简洁性
简洁性就是要尽量选择重要的本质属性,并消除冗余。进行决策时,决策者往往抓住反映问题的主要因素,而不需要把问题的细节都搞得很清楚。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。一些不必要的属性既会增大数据量,又会影响挖掘数据的质量。因此,选择较小的典型特征集不仅符合决策者的心理,而且还容易挖掘到简洁有价值的信息。
4.适用性
适用性是评价数据质量的重要标准。建立数据仓库的目的是进行数据挖掘、支持决策分析,而在现实世界中很难挖掘到满意的数据,但是我们可以尽量获取符合要求的数据。数据的质量是否能满足决策的需要是适用性的关键所在。尽管前面已经强调了数据的准确性、完整性和简洁性,但归根结底是为了数据的实际效用。从数据的实际效用上讲,适用性才是评价数据质量的核心准则。