1.商务数据集成主要解决多个数据或不同数据来源中不同结构的原始数据合并导致的数据冗余,以及部分数据不一致的问题
2.商务数据转换主要是将数据从一种表示形式变为另一种表示形式,使不同的数据之问具有相同的计算单位或计量方式,以便于比较。
3.商务数据规约的意义在于克服无效、错误的数据对数据建模造成的影响.提高建模的准确性;大幅缩减数据挖掘所需的时间;降低储存数据的成本。
变量规约通过合并变量来创建新变变量,或者直接通过删除不相关的变量(属性)来减少数据维数,从而提高数据挖掘的效率、降低计算成本。变量规约的目标是寻找出最小的变量子集,并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。
数值规约的主要思想是通过选择可替代的数据来减少数据量,主要包括有参数方法和无参数方法两类。有参数(方法是使用一个模型来评估数据,只需存放参数而不需要存放实际数据,例如回归模型(线性回归和多元回归)和对数线性模型无参数方法如借助直方图、聚类、抽样等进行分析