数据预处理-白红宇

数据预处理

阅读量：4039 次

发布时间：2019-05-24

本文共 2356 字，大约阅读时间需要 7 分钟。

总述：数据预处理是数据挖掘的第一步，其中遇到的问题是非常多的，不过问题主要集中在数据的规模、规范程度上。只要合理的压缩数据的规模，提高数据的规范程度，数据预处理就是非常成功有效的。

为什么要进行数据预处理

描述性数据汇总是怎么处理的

数据清理要怎么处理

数据集成和数据变换是怎么操作的

数据规约有哪些方法

1.为什么要进行数据预处理

答：数据挖掘的数据来源可能是来源于多个数据源，每个数据源中数据保存格式、字段、精度都有差别的。只有做好数据预处理才可以提升数据挖掘的处理速度、降低数据挖掘的成本，数据预处理环节是完全不可以绕过的。数据预处理的技术有数据清理、数据集成与变换、数据规约。

2.描述性数据汇总是怎么处理的

答：描述性数据汇总是利用中心趋势度量、数据离中趋势度量等统计学方法描述数据汇总后的基本情况。

度量数据的中心趋势可以采用的方法有算术均值、分布式度量、整体度量。算术均值是最简单的，就是对数据值集求平均数。分布式度量将数据集划分成较小的数据子集，分别计算每个子集的度量，合并并计算得出整个数据集的度量值。代数度量是可以通过应用一个代数函数于一个或多个分布度量计算的度量。加权算术均值是代数度量的一个例子，代数度量是分布式度量的一个特例。整体度量是必须对整个数据集计算的度量，中位数是整体度量的一个例子。众数反应了数据集整体中出现频率最高的数值，可能是一个，也可能是多个，它也是中心趋势度量的一个指标。

数值数据趋向于分散的程度称为数据的方差。数据离中趋势最常用的度量指标是极差、五数概括、中间四分位数极差、标准差。极差是最大值和最小值的差。

描述性数据汇总的展示图形有直方图、分位数图、散布图。

3.数据清理要怎么处理

答：数据清理试图填充缺失的数据值，光滑噪声并识别离群点，纠正数据中的不一致。

填充缺失数据的方法有多个，如忽略、人工填写、使用某个指定的全局常量填充、使用属性均值填充、使用与给定元组同属一类所有样本的属性均值填充、使用最可能的值填充等。这些方法中使用最可能的值填充是当前流行的方式，数值的预测可以通过使用回归、贝叶斯形式化基于决策树的归纳等推定。当然并不是所有的缺失值都需要补全，例如某些非必填的业务数据值。

噪声是被测量变量的随机误差或方差。数据光滑技术有分箱、回归、聚类。分箱方法通过考察数据周围的值来光滑有序数据的值，常见的处理有用箱均值光滑、用箱中位数光滑、用箱边界光滑。回归是用一个函数拟合数据来光滑数据，如线性回归。聚类将类似的值组织成群或簇，直观的进行光滑数据，进一步可以采用概念分层的方式，完成数据光滑。

数据清理是一个过程，包含两个基本步骤：偏差检测和数据变换。这两个基本步骤迭代执行，主要是应对数据清理任务的繁重性。数据清理中要尽可能利用已有的规则纠正数据的不一致性，如唯一性规则、连续性规则、空值规则、取值范围等。数据变换过程中要在可控的范围内逐步变换。

4.数据集成和数据变换是怎么操作的

答：数据集成合并多个数据源中的数据，存放在一个一致的数据存储中。

数据集成中有三个非常重要的问题：相同或者相似的实体不同的表示形式怎么集成、属性之间存在关联应该怎么处理、数据值冲突怎么进行检测和处理。相同或者相似实体的不同表示形式，可以通过名称、含义、数据类型、属性取值范围、空白处理、空值规则等对比后进行转换，数据清理过程对此问题的解决有帮助。属性之间存在关联关系，更进一步是存在冗余，需要通过相关分析检测进行分析，可以采用统计学中卡方分布、独立事件相关性分析的计算得出结论，最后根据结论化简掉冗余或者强相关的部分。数据值冲突怎么检测和处理的问题，冲突可能来源于表示形式、比例、编码等，处理上要进行合适的转化或者做统一编码处理。

数据变换是将数据转换或统一成适合挖掘的形式。数据变换可能涉及光滑、聚集、数据泛化、规范化、属性构造等。光滑是一种数据清理形式，聚集和数据泛化是一种数据规约形式，规范化和属性构造是通过标准化或者构造特征属性的方式将原始数据变换到某个标准区间上。

5.数据规约有哪些方法

答：数据规约技术可以将数据集规约表示，缩小数据集但是仍保持接近原有数据完整性。简而言之，数据规约是做近似化简操作，近似等比压缩数据集的规模，主要是为了缩小数据集的规模提升挖掘的效率。

常用的数据规约策略有数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念化分层产生。数据立方体存储多维聚集信息，在最底抽象层上的基本立方体包含了对分析有用和可用的信息，最高层的立方体只要做汇总计算就可以得到分析结果。属性子集选择通过删除不想管或冗余的属性减小数据集。属性子集选择的基本方法有逐步向前选择、逐步向后删除、向前选择和向后删除的结合、决策树归纳。维度规约使用数据编码或变换，将原数据进行规约或压缩表示。如果原数据可以由压缩数据重新构造而不丢失任何信息，则称该数据规约是无损的，否则就是有损的。小波变换和主成分分析是两种有效的有损维度规约方法。小波变换是类似傅里叶变换的一种变换方式；主成分分析是找出数据的主要维度，通过比原先少的几个正交维度来压缩数据。数值规约是将数值用用较少的数据来表示，缩减取值数目提升数据的“浓度”。常用的数值规约方法有回归和对数线性模型、直方图、聚类、抽样等。数据离散化技术可以减少给定连续属性值的个数，用区间标记代替实际的数据值。对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分，称为概念分层。数值属性的概念分层可以根据数据离散化自动构造，常用方法有分箱、直方图分析、基于熵的离散化、卡方合并、聚类分析、通过直观划分离散化等，这些方法都假定待离散化的值已经按递增序排序。分类数据是离散数据，本身就是很容易引入概念分层的。

转载地址：http://lmpdi.baihongyu.com/

你可能感兴趣的文章