机器学习思维导图模板大纲
无监督学习
聚类
样本集合中相似的样本分为同一个类,不相似的样本分配到不同的类
机器学习就是让计算机程序,不是通过人类指定的规则,而是通过自身的运行习得事物的规律和事物之间的关联思维导图模板大纲
三要素:算法通过在数据上进行运算产生模型思维导图模板大纲
一个训练好的模型可以被理解成一个函数y=f(x)思维导图模板大纲
成功的机器学习不是拥有最好的算法而是拥有更多的数据思维导图模板大纲
机器学习产生的结果是——模型思维导图模板大纲
模型准备的步骤
数据准备
数据集拆分的方法
留出法
分为两个互斥的子集,保证数据分布的一致性,重复实验取平均值
自助法
可重复采样或又放回的采样,1/3的数据用来测试,数据少的时候常用,数据多的时候用留出法和交叉验证法
交叉验证法
分为k个子集,(k一般取10),一般保证数据分布的一致性
留一法(交叉验证法的一种):不受随机样本划分的影响,缺点:训练集大的时候,训练耗时大
改进模型:增加训练数据集,调参(优化算法),换个模型
实际预测输出与样本的真实输入之间的差异是误差,在训练集上的误差是训练误差,在新样本上的误差是泛化误差,我们能做到只有减少训练误差,我们希望得到在新样本上表现好的的模型即泛化误差小的模型,
数据要拆分的原因:为了得到泛化性能强的模型思维导图模板大纲