离散化处理是什么意思 离散化处理是什么意思?

离散处理是一种训练集预处理方法,用于将连续的数值属性转化为离散的数值属性。离散数值属性在数据挖掘过程中起着重要的作用。离散化处理是什么意思?在Microsoft SQL Server 2005 ana

离散处理是一种训练集预处理方法,用于将连续的数值属性转化为离散的数值属性。离散数值属性在数据挖掘过程中起着重要的作用。

离散化处理是什么意思?

在Microsoft SQL Server 2005 analysis services(SSAS)中创建数据挖掘模型时使用的某些算法需要特定的内容类型才能正确运行。例如,某些算法(如Microsoft naive Bayes算法)不能使用连续列作为输入,也就是说,它们不能预测连续值。此外,有些列可能包含太多的值,这使得算法很难在数据中识别相关模式来创建模型。

在这种情况下,可以对列中的数据进行离散化,以便使用算法生成挖掘模型。离散化是将一组连续数据的值放入桶中,以得到离散的可能状态数的过程。bucket本身被视为一个有序的离散值。数值列和字符串列都可以离散化。

离散化数据的方法有很多种。每个方法都可以使用以下示例代码中的公式来自动计算要生成的桶数:

桶数=sqrt(n)

在上述示例代码中,n是列中数据非重复值的数目。如果不希望analysis services计算存储桶数,可以使用DiscretizationBucket属性手动指定存储桶数。

什么叫做离散化?

不同的模型需要不同的数据,所以我们需要相应地处理数据。

对于一般线性回归模型,自变量的数据类型要求是连续的,因此离散数据需要是连续的。一般来说,0,1,2,3的编码。。。对有序离散变量采用虚拟变量,对无序离散变量生成多个虚拟变量。对于决策树模型,需要对连续数据进行离散化;为了显示连续数据的分布特征,在绘制直方图时也需要对连续数据进行离散化

1。根据PID控制器的离散形式,直接替换参数。2微分项是近似的(乘以具有小时间常数的惯性环节)。