读书_机器学习实践

读书《机器学习实战》

1，knn

特点：
a，宏观比对相似性，特征无偏爱，无主次关系。
b,knn倾向于分类标签较多的目标标签，比如a10%，b90%，则大部分分类结果都会是b，虽然也符合清理（随大流错误风险小），但是难以发掘数据内部逻辑关系。
c，-如果特征存在线性相关则会导致偏差，相关的特征等价于加了权重。（使用前最好做下主成分分析，或卡方，弱化相关属性）
思_20161014，不过，感觉这个应该对分类无影响。因为在训练和预测数据上都是相同的相关关系，knn从宏观比对，属性内部相关应该对其无影响。
例子：相亲网站，手写识别。

2，决策树

特点：
a,特征之间存在偏置，主次。比对knn，决策树一个部节点会导致后续分类结果完全不同，而knn计算距离的则不会，特征同权。
b,如果两个特征存在相关性，可能会导致节点选择时，选A或者选B的信息增益类似，虽然可能导致构造的树不稳当，但实际结果上影响不大。
c,思_可以考虑先决策树，挑选出影响较大的特征，来决定交给哪个子树处理。然后子树上使用knn算法。
d，思_逆运算进行检测，用自己模型生成的数据，是否能够再复原出之前的生成模型。如果不能说明不稳定，是否可以继续训练选择其他决策树。
e，进_熵函数，理解上，只要相同节点数，节点越均匀（随机）熵就越大（1/4,3/4小于1/2,1/2大）。同平均度，节点多的大于节点少的（3个1/3应该大于2个1/2)都是可接受的。但是感觉用1/2,1/2等不大好，应该和父节点相比，如果父节点是1/4正,3/4反。子节点的选择特征A1/4,3/4，特征B,1/2,1/2,特征C，3/4,1/4则显然选择3更好，理论上应该用选择3（对1/4的目标数据预测很准，这只是大概描述，并不明确，含义是子特征的划分和父特征差异越大越好，不应该和1/2或1/n比)
例子：隐形眼镜问题

3，朴素贝叶斯

特点
a，特征独立性。

例子：文档分类，垃圾邮件过滤，个人广告倾向。

本文标题：读书_机器学习实践

本文作者：yuanjh

本文链接：https://hexo.yuanjh.cn/hexo/9e3b7369/

发布时间：2019-03-15

2023-06-29

数据库21mysql导出导入带header的csv

读书_机器学习实践

1，knn

2，决策树

3，朴素贝叶斯

目录

链接

分类

最新文章

Your browser is out-of-date!