读书《机器学习实战》
1,knn
特点:
a,宏观比对相似性,特征无偏爱,无主次关系。
b,knn倾向于分类标签较多的目标标签,比如a10%,b90%,则大部分分类结果都会是b,虽然也符合清理(随大流错误风险小),但是难以发掘数据内部逻辑关系。
c,-如果特征存在线性相关则会导致偏差,相关的特征等价于加了权重。(使用前最好做下主成分分析,或卡方,弱化相关属性)
思_20161014,不过,感觉这个应该对分类无影响。因为在训练和预测数据上都是相同的相关关系,knn从宏观比对,属性内部相关应该对其无影响。
例子:相亲网站,手写识别。
2,决策树
特点:
a,特征之间存在偏置,主次。比对knn,决策树一个部节点会导致后续分类结果完全不同,而knn计算距离的则不会,特征同权。
b,如果两个特征存在相关性,可能会导致节点选择时,选A或者选B的信息增益类似,虽然可能导致构造的树不稳当,但实际结果上影响不大。
c,思_可以考虑先决策树,挑选出影响较大的特征,来决定交给哪个子树处理。然后子树上使用knn算法。
d,思_逆运算进行检测,用自己模型生成的数据,是否能够再复原出之前的生成模型。如果不能说明不稳定,是否可以继续训练选择其他决策树。
e,进_熵函数,理解上,只要相同节点数,节点越均匀(随机)熵就越大(1/4,3/4小于1/2,1/2大)。同平均度,节点多的大于节点少的(3个1/3应该大于2个1/2)都是可接受的。但是感觉用1/2,1/2等不大好,应该和父节点相比,如果父节点是1/4正,3/4反。子节点的选择特征A1/4,3/4,特征B,1/2,1/2,特征C,3/4,1/4则显然选择3更好,理论上应该用选择3(对1/4的目标数据预测很准,这只是大概描述,并不明确,含义是子特征的划分和父特征差异越大越好,不应该和1/2或1/n比)
例子:隐形眼镜问题
3,朴素贝叶斯
特点
a,特征独立性。
例子:文档分类,垃圾邮件过滤,个人广告倾向。