一般情况下,事物的特征很多,但是提取的特征应该尽量要服从于我们的目的
如果提取了很多无效的特征,那么在机器学习实战中的价值也不会很大
通常来说,特征包括两类,第一种是离散型特征,第二种是连续型特征
离散型特征指的是该特征的数据类型是离散的(discrete)
离散型特征的数值之间的大小关系(实数域比较)有的时候是没有意义的
连续性特征指的是该特征的数据类型是连续的(continuous)
连续特征的数值之间有大小关系(实数域比较),比如通过气温特征的值,是可以反映这个地区的温度情况
通过某个人的身高则可以反映出这个人距离上一次测量有没有变化