一些学习计划

学习计划

  1. reivew知识,夯实基础。按着sklearn中User Guide中的6个模块来review一遍文档和其中涉及到的相关知识。不过不会以完整的罗列出来全部内容的形式来做,这样就不符合DRY原则了(笑),只打算列出各个API中涉及到的不熟悉的知识点的相关知识,又或者是相关链接,自己做一定的归纳总结。

    具体来说就是:

    • 理论知识上,在学习到一定程度下,留下学习到的相关链接,总结自己的理解;
    • 代码实现上,在完全不熟悉或者理解不够透彻的情况下,需进行一定量的coding(暂不打算开源);
    • 主要方向上,主要围绕Supervised Learning, Model selection and evaluation, Dataset transformations, Unsupervised Learning这4个模块进行,除此之外对于XGBoost, LightGBM, CatBoost等Kaggle常见模型进行复习。
    • 估计耗时:1个半月-2个月
  2. 继续实战。

    具体目标有:

    1. 完成对Stantar customer transaction prediction 2019的kernel和discussion的学习,并在别人给出的hints下,自己实现一个top 1 % kernel并开源出来。

    2. 在Don't Overfit 和TMDB Box Office Prediction 两个Plaground competition中争取进去Sliver Zone,并在Don't Overfit 结束并学习完后赶紧进入Jigsaw和Earthquake的两个比赛中去。

    3. review Matplotlib和seaborn两个package,根据Kaggle开源kernel熟悉可视化部分。之前这块太弱了,严重影响了EDA的能力。

    4. review Numpy和Pandas两个package,加强数据处理的能力。

      • 估计耗时:

        1. 10-15天
        2. 持续2个月+
        3. 15-20天
        4. 10-15天
  3. Book Reading&Thesis Learing

    具体目标有:

    1. reivew线代(之前被搁置过)。把UTM-Applied-Linear-Algebra-and-Matrix-Analysis这本书剩下的地方内容+课后带答案的题仔细刷一遍(之前搁置到50%);
    2. 开PRML/ESL/MLAPP的坑
    3. 开Boyd的凸优化的坑。
    4. 开NLP的坑。
    5. 开Stanford ML相关公开课的坑
      • 估计耗时:2-3天一节,争取1.5个月内review完UTM这本线代书,再考虑开什么坑比较合适...

    将这些任务同时进行,争取2个月之内完成这些目标,中间老板可能会有各种任务,最多不要拖过2周。在大部分结束前1-2周,会定制新的计划。