学习计划
reivew知识,夯实基础。按着sklearn中User Guide中的6个模块来review一遍文档和其中涉及到的相关知识。不过不会以完整的罗列出来全部内容的形式来做,这样就不符合DRY原则了(笑),只打算列出各个API中涉及到的不熟悉的知识点的相关知识,又或者是相关链接,自己做一定的归纳总结。
具体来说就是:
- 理论知识上,在学习到一定程度下,留下学习到的相关链接,总结自己的理解;
- 代码实现上,在完全不熟悉或者理解不够透彻的情况下,需进行一定量的coding(暂不打算开源);
- 主要方向上,主要围绕
Supervised Learning
,Model selection and evaluation
,Dataset transformations
,Unsupervised Learning
这4个模块进行,除此之外对于XGBoost
,LightGBM
,CatBoost
等Kaggle常见模型进行复习。 - 估计耗时:1个半月-2个月
继续实战。
具体目标有:
完成对Stantar customer transaction prediction 2019的kernel和discussion的学习,并在别人给出的hints下,自己实现一个top 1 % kernel并开源出来。
在Don't Overfit 和TMDB Box Office Prediction 两个Plaground competition中争取进去Sliver Zone,并在Don't Overfit 结束并学习完后赶紧进入Jigsaw和Earthquake的两个比赛中去。
review Matplotlib和seaborn两个package,根据Kaggle开源kernel熟悉可视化部分。之前这块太弱了,严重影响了EDA的能力。
review Numpy和Pandas两个package,加强数据处理的能力。
估计耗时:
- 10-15天
- 持续2个月+
- 15-20天
- 10-15天
Book Reading&Thesis Learing
具体目标有:
- reivew线代(之前被搁置过)。把UTM-Applied-Linear-Algebra-and-Matrix-Analysis这本书剩下的地方内容+课后带答案的题仔细刷一遍(之前搁置到50%);
开PRML/ESL/MLAPP的坑。开Boyd的凸优化的坑。开NLP的坑。开Stanford ML相关公开课的坑- 估计耗时:2-3天一节,争取1.5个月内review完UTM这本线代书,再考虑开什么坑比较合适...
将这些任务同时进行,争取2个月之内完成这些目标,中间老板可能会有各种任务,最多不要拖过2周。在大部分结束前1-2周,会定制新的计划。