如果是个穷光蛋:如何从零开始学习成为一个数据科学家?
作者:媒体转发 时间:2018-10-12 01:09
去年,我自学了数据科学,搜集了几百个在线资源,每天学 6~8 个小时。与此同时,我白天还在日托中心上班,拿着最低的薪资水平。
尽管我资金不足,但我的目标是从事自己热爱的职业。
因此,我在过去几个月中取得了一些成就。我发布了自己的网站,主流的在线数据科学网站 KDnuggets 也对我进行了报道,我还在极具竞争力的计算机科学研究生课程中获得了奖学金。
网站地址:https://harrisonjansma.com/
我在本文中提供了一些指导和建议,以便你自行学习数据科学课程。我还提供了一些参考工具,希望能给想要学习的人一些帮助,让他们可以在数据科学领域中从事更有激情的职业。
快速说明:我说的「数据科学」,指的是将数据转化为现实行为的工具集合,包括机器学习、数据库技术、统计、编程以及特定领域的技术。
开启学习之旅的一些资源
互联网上乱七八糟混乱一片。要从中学习就像是从消防水带的末端喝水一样。

有一些更简单的替代方法可以为你从中理出头绪。
像 Dataquest、DataCamp 和 Udacity 这样的网站会教你一些数据科学的技巧。这些网站每一个都创建了一个教育计划,以便你按主题学习,而你几乎不用做什么课程计划。
问题在于这些网站都付费不低,而且它们无法教你如何在工作环境中应用这些概念,而且它们也会妨碍你继续探索自己的兴趣和激情所在。
而像 edX 和 coursera 这样的替代品则无需付费,它们会提供关于某个特定话题的一次性课程。如果你可以在视频环境或课堂环境中好好学习的话,这些都是学习数据科学的绝佳方法。

你可以从第一个网址中获得一些数据科学课程,也可以从 David Venturi 的博客或 Open Source DS Master 上找到一些免费的课程。
地址:https://www.class-central.com/subject/data-science
David Venturi:https://medium.com/@davidventuri/i-dropped-out-of-school-to-create-my-own-data-science-master-s-here-s-my-curriculum-1b400dcee412
Open Source DS Master:
如果你只需要阅读就可以学得不错的话,推荐你看《Data Science From Scratch》。这本书是一个完整的学习方案,可以作为在线资源的补充。你可以在线免费获取这本书的 pdf 版,也可以在 Amazon 上买到纸质版。
在线 PDF:
~lfzhou/seminar/[Joel_Grus]_Data_Science_from_Scratch_First_Princ.pdf
这只是一小部分学习数据科学的免费资源,还有更多。为了更好地理解你在学习中需要获取的技能,我将在下文详细叙述更广泛的学习指南。这些内容不仅仅是课程列表或者书单,而是一些更加高级的内容。
课程指南

数据科学课程指南
1. Python 编程
编程是数据科学的基本技能。熟悉 Python 的语法,了解如何用不同的方式(Jupyter botebook、命令行以及 IDE)运行 Python 程序。
我花了大概一个月的时间复习 Python 文档、Hitchhiker 的 Python 指南以及 CodeSignal 上的代码问题。
Python 文档:https://docs.python.org/3/tutorial/
Hitchhiker 的 Python 指南:https://docs.python-guide.org/intro/learning/
CodeSignal:https://codesignal.com/
提示:留意程序员解决问题的常用技巧(即「算法」)。
2. 统计&线性代数
这是机器学习和数据分析的先决条件。如果你已经对此有了充分的了解,那么请用一到两周复习一下重点概念。
尤其要注意描述性统计。理解统计数据是一项非常重要的技能。
3. Numpy、Pandas&Matplotlib
学习如何加载、操作和可视化数据。掌握这些库对你的个人项目而言至关重要。

快速提示:你无需记住每种方法或每个函数的名字,记住这些东西需要实践。忘了的话 Google 一下好了。
浏览以下三个文档:
Pandas 文档:
Numpy 文档:https://docs.scipy.org/doc/numpy/user/index.html
Matplotlib 教程:https://matplotlib.org/tutorials/index.html
记住,实践出真知!
4. 机器学习
学习机器学习算法的理论和应用。然后将所学的概念用到现实世界中你关心的数据上。
大多数初学者是从处理 UCI ML Repository 中的小数据集开始的。他们对这些数据进行处理,并在这些数据上实践 ML 教程。



