统计_假设检验

假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。

基础_方差偏差和噪声

噪声

港股打新_机器学习预测港股打新收益02

日期名称预测01(原算法)预测02(新算法)实际方向对错
20200101麗年國際控股32.07189514
20200101CTR Holdings70.13069214
20200101尚晉(國際)控股4.30706134.09
20200101文業集團控股51.17572814
20200101曠世控股14.98690243.75
20200101三和精化集團12.56793112
20200101華和控股集團2.9527830.8
20200101新石文化投資16.344639121.21
20200101北控城市資源集團-16.629482-8.87
20200101九毛九國際控股-0.08765557.73
20200101雋思集團控股-7.2341830.67
20200101Infinity Logistics and Transport Ventures-10.5844250.67
20200101上海建橋教育集團1.264491.03
20200101佳辰控股集團-9.19769115.09
20200101艾德韋宣集團控股9.16353426.67
20200101滙景控股0.0302395.29
20200101驢跡科技控股-6.050739-2

港股打新_特征分析可视化

绿鞋(无差别)

港股打新_机器学习预测港股打新收益

 前阵子接触到了港股打新,据说是个赚零花钱的好方法。

项目_机器学习竞赛阅读

人社大赛算法赛题解题思路分享+季军+三马一曹团队

读书_机器学习实践

读书《机器学习实战》

读书_机器学习

教材《机器学习》

算法_ARIMA时间序列分析总结

简介

算法_机器学习十大算法优缺点

机器学习十大算法
数据挖掘十大算法总结–核心思想,算法优缺点,应用领域,数据挖掘优缺点
分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
聚类算法:KMeans
统计学习:EM
关联分析:Apriori
链接挖掘:PageRank

统计_PValue个人理解

最近见到p-value的频率有点高,之前也看到很多次了,基本当时懂了过几天就忘记了,整理下。

预处理_pandas数据预处理

数据预处理常用python方法

项目_kaggleTitanic

练手作Titanic

项目_天池工业蒸汽量预测特征工程

01_columns_info

项目_天池工业蒸汽量预测

特征工程

项目_天池电力预测

题目:[智造扬中]大航杯电力AI大赛
地址:https://tianchi.aliyun.com/competition/entrance/231602/information
这个项目做了一半就放弃了,主要是数据偏大,本机使用单sql+聚集函数都需10分钟以上.
使用阿里云环境,也有问题,一方面由于sql是阿里定制sql(类似spark的sql),使用挺大的不方便(不支持update,只能select),另一方面,不支持pandas,特征工程时比较头大.
所以后面就放弃了.
这个问题本质上属于时间序列

项目_天池移动推荐

问题

项目_kaggle房价预测01

ipynb 转化(对应notebook文件(图片路径需要重新生成):python_myproject/kaggle_housePrice/house_price01.ipynb)

项目_天池津南数字制造

标题:津南数字制造算法挑战赛【赛场一】
地址:https://tianchi.aliyun.com/competition/entrance/231695/information

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×