首页 体育世界正文

类似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮晶晶

作者 | Thomas Nield

翻译 | 苏克1900 @ 高档农民工大众号

原文 | How it feels to learn data science in 2019

学 Excel 仍是 R、Python?机器学习怎样入门?数据工程师和数据科学家有什么差异?美国 IT 大牛以对话的办法,为你答疑解惑,比干巴巴地介绍你一步一步该学什么的文章,读起来有意思的多~

最近看到一篇叫「2019 年学习数据科学是什么感触」的文章,深有感触。作者Thomas Nield,美国西南航空公司的商务参谋,著有《Getting Started with SQL (O'Reilly) 》等书,经验丰富的 IT 大牛。

文章中他 以一问一答的办法,给那些想要踏上数据科学之路的人,提杨卓娜老公了一些中肯的主张。里边有些观念很有价值,特节选翻译成文,这儿共享给你。

布景:假定你是一名「表哥」,往常作业首要运用 Excel,数据透视表、制图表这些。最近了解到未来许多作业岗位会被人工智能会替代,乃至包含你现在的作业。你决议开端学习数据科学、人工智能和机器学习,Google 查找「怎么成为数据科学家」找到了下面这样一份学习路线图,然后你就开端向作者大牛讨教。

Q:我是否真的有必要掌握这个图表中的一切内容,才干成为数据科学家?

成为一名数据科学家的有必要技能(到2013年)

A:简略说,不需求悉数。这是 2013 年的路线图,有点过期了,里边连 TensorFlow 都没有,根本没有人再参阅。彻底能够划掉这个图中的一些途径,前几年「数据科学」划分地过于涣散,选用其他办法会更好。

Q:听你这样说就不那么紧张了,那么我应该回到校园持续进修,然后取得一个数据科学硕士学位吗? 我看许多数据科学家至少都是硕士。

A:天哪,你为什么这样做?不要被「数据科学」这些巨大上的术语给唬住了,这些术语首要是用来从头界说一些事务分类。事实上,校园教授的东西根本都是过期的技能,不如挑选 Coursera 或 Khan Academy 这些在线自学网站。

Q:那么我该怎么开端自学呢?LinkedIn上的人说应该先学习 Linux ,Twitter 的人主张先学习 Scala,而不是 Python 或 R

A:不要信那些人的话。

Q:好的,R怎样样?不少人喜爱它。

A:R 拿手数学建模,但 Python 能做的更多,比方数据处理和建立 Web 效劳,总归 Python 比 R 的学习出资回报率高。

Q:R 在 Tiobe上的排名依然很高,而且具有许多的社区和资源,学它有什么欠好?

假如你鱼米金服只相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪是对数学感兴趣,运用 R 彻底没问题,合作 Tidyverse 包更是如虎添翼。但数据科学的运用规模远超数学和核算学。所以信任我,Python 在 2019 年更值得学,学它不会让你懊悔。

Q:Python 难学么?

A:Python 是一种简略的言语,能够帮你能够主动完结许多使命,做一些很帅的作业。不过数据科学不仅仅是脚本和机器学习,乃至不需求依靠 Python 。

Q:什么意思?

A:Python 这些深圳坪山气候预报仅仅东西,运用这些东西能够从数据中获取洞察力,这个进程有时会触及到机器学习,但大部分时刻没有。简略地来说,创立图表也能够算是数据科学,所以你乃至不必学习 Python,运用 Tableau 严智蕴都行,他们声称运用三国之傲视龙腾他们的产品就能够「成为数据科学家」。

Q:好吧,但数据科学应该不仅仅是制造出美丽的可视化图表,Excel 中都能够做到,别的学习编程应该很有用,告诉我一些 Python 方面的常识吧

A:学习 Python,你需求学习一些库,比方用于操作 DataFrame 的 Pandas 、制造图表的 Matplotlib,实际上更好的挑选是 Plotly,它用了 d3.js。

Q:我能懂一些,但什么是 DataFrame?

A:它是一种有行和列的数据结构,相似 Excel 表,运用它能够完结很帅的转化、透视和聚合等功能。

Q:那 Python 与 Excel 有什么不同?

A:大不相同,你能够在 Jupyter Notebook 中完结一切操作,逐渐完结每个数据剖析阶段并可视化,就像你正在创立一个能够与别人共享的故事。究竟,交流和讲故事是数据科学的重要组成部分。

Q:这听起来和 Pow相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪erPoint 没什么差异啊?

A:当然有差异,Jupyter Notebook 更主动简练,能够轻松追溯每个剖析过程。有些人不太喜爱它,由于相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪代码不是很有用。假如你想做一款软件产品,更好的办法是运用其他东西模块化封装代码。

Q:那么数据科学跟软件工程也有联络么?

A:也能够这么说,但不要走偏,学习数据科学最需求的是数据。初学的最佳办法是网络爬虫,抓取一些网页,运用 Beautiful Soup 解析它生成许多非结构化文本数据下载到电脑上。

Q:我以为学习数据科学是做表格查询而不是网页抓取的作业,所以我刚学完一本 SQL 的书,SQL 不是拜访数据的典型办法吗?

A:好吧,咱们能够运用非结构化文本数据做许多很帅的作业。比方对交际媒体帖子上的心情进行分类或进行自然言语处理。NoSQL 十分拿手存储这种类型的数据。

Q:我听说过 NoSQL 这个词,跟 SQL 、大数据有什么联络?

A:大数据是 2016 年的概念,现已有点过期了,现在大多数人不再运用这个术语。NoSQL 是大数据的产品,今日霍泊宏开展成为了像 MongoDB 相同的渠道。

Q:好的,但为什么称它为 NoSQL?

A:NoSQL 代表不仅是 SQL,它支撑联络表之外的数据结构,不过 NoSQL 数据库一般不运用 SQL,有专门的查询言语,简略比照一下 Mo相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪ngoDB 和 SQL 查询言语:

Q:这太可怕了,你意思是每个 NoSQL 渠道都有自己的查询言语?SQL 有什么问题?

A:SQL 没有任何问题,它很有价值。不相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪过这几年非结构化数据是热潮,用它来做剖析更简略。需着重的是,虽然 SQL 难学,但它是一种十分通用的言语。

Q:好的,我能够这样了解么: NoSQL 对数据科学家来说不像 SQL 那么重要,除非作业中需求它?

A:差不多,除非你想成为一名数据工程师。

Q:数据工程师?

A:数据科学家分为两个作业。数据工程师为模型供给可用的数据,机器学习和数学建模触及比较少,这些作业首要由数据科学家来做。假如你想成为一名数据工程师,主张优先考虑学习 Apache Kafka 而不是 NoSQL,Apache Kafka 现在十分抢手。

假如想成为「数据科学家」,能够看看这张数据科学维恩图。简略来说,数据工程师是一个多范畴穿插的岗位,你需求懂数学/核算学、编程以及你专业方面的常识女人性欲。

Q:好吧,我不知道我现在是想成为数据科学家仍是数据工程师。回过头来,为什么要抓维基百科页面呢?

A:抓取下来的页面数据,能够作为自然言语处理的输入数据,之后就能够做一些作业,如创立谈天机器人。

Q:我暂时应该不必触摸自然言语处理、谈天机器人、非结构化文本数据这些吧?

A:不必但值得重视,像相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪 Google 和 Facebook 这些大公司,现在在处理许多非结构化数据(如交际媒体帖子和新闻文章)。除了这些科技巨子,大部分人依然在运用联络数据库办法的事务运营数据,运用着不是那么前沿的技能,比方 SQL。

Q:是的,我猜他们还在做发掘用户帖子、电子邮件以及广告之类的作业。

A:是的,你会发现 Naive Bayes 风趣也很有用。获取文本正文并猜测它所属的类别。先越过这块,你现在的作业是处理许多表格数据,是想做一些猜测或核算剖析么?

Q:对的,咱们总算回到正题上了,便是处理实际问题,这是神经网络和深度学习的用武之地吗?

A:不要着急,假如想学这些,主张从根底开端,比方正态分布、线性回归等。

Q:理解,但这些我依然能够在 E科斯塔沙滩独练xcel 中完结,有什么差异?

A:你能够在 Excel中 做许多作业,但编程能够取得更大的灵活性。

Q:你说的编程是像 VBA 这样的么?

A:看来我需求从头说了。Excel 的确有很好的核算运算符和不错的线方云霄性回归模型。但假如你需求对每个类别的项目进行独自的正态分布或回归,那么运用 Python 要简略得多,而不是创立一长串的公式,比方下面这样,这会让看公式的人无比苦楚。除此之外,Python 还有功能强大的 scikit-learn 库,能够处理更多的回归和机器学习模型。

Q:这需求触及到数学建模范畴是吧,我需求学习哪些数学常识?

A:从线性代数开端吧,它是许多数据科学的根底。你会处理各种矩阵运算、行列式、特征向量这些概念。不得不说,线性代数很笼统,假如你想要得到线性代数的直观解说,3Blue1Brown 是最棒的。

(这和我之前写的一篇文章观念不约而同:最棒的高数和线代入门教程)

Q:便是作许多的线性代数运算?这听起来毫无意义和无聊,能举个比方么?

A:好吧,机器学习中会用到许多的线性代数常识,比方:线性回归或构建自己的神经网络时,会运用随机权重值进行许多矩阵乘法和缩放。

Q:好吧,矩阵与 DataFrame 有什么联络?感觉很相似。

A:实际上,我需求回收方才说的话,你能够不必线性代数。

Q:真的吗?那我还要不要学习线性代数?

A:就现在而言,你或许不需求学习线性代数,直接运用机器学习库就行,比方 TensorFlow 和 scikit-learn 这些库,它们会协助你主动完结线性代数部分的作业。不过你需求对这些库的作业原理有所了解。

Q:提到机器学习,线性回归真的算是机器学习吗?

A:是的,线性回归是机器学习的敲门砖。

Q:真棒,我一向在 Excel 中这样做,那我是不是也能够自称「机器学习从业者」?

A:技能上来说是的,不过你需求扩展常识面。机器学习一般有两个使命:回归或分类。从技能上讲,分类是回归。决策树、神经网络、支撑向量机、逻辑回归以及线性回归,这些算法都在做某种办法的曲线拟合,每范茗慧种算法各有优缺点。

Q:所以机器学习仅仅回归?它们都有效地拟合了曲线?

A:差不多,像线性回归这样的一些模型明晰可解说,而像神经网络这样更先进的模型界说是杂乱的,而且难以解说。神经网络实际上仅仅具有一些非线性函数的多层回归。当你只要 2-3 个变量时,它或许看起来不那么令人形象深入,可是当你有数百或数千个变量时它就开端变得风趣了。相似爱情,2019 年,Python 数据科学该怎样学,一闪一闪亮闪闪

Q:那图画识别也仅仅回归?

A:是的,每个图画像素根本上变成具有数值的输朴炯植超话入变量。你有必要警觉维度的咒骂,变量(维度)越多,需求的数据越多,以防变得稀少。这是机器学习如此不可靠和紊乱的许多原因之一,而且需求许多你没有的符号数据。

Q:机器学习能处理组织职工、交通东西、数独一切这些问题吗?

A:当你遇到这些类型的问题时,有些人会说这不是数据科学或机器学习而是运筹学。

Q:这对我来说似乎是实际问题。运营研讨与数据科学无关?

A:实际上,存在相当多的堆叠。运筹学现已供给了许多机器学习运用的优化算法。它还为常见的 AI 问题供给了许多处理方案。

Q:那么咱们用什么算法来处理这些问题呢?

A:肯定不是机器学习算法,很少有人知道这一点。几十年前就有更好的算法,树查找、元启发式、线性规划和其他运算研讨办法现已运用了很长时刻,而且比机器学习算法对这些类别的问题做得更好。

Q:那为什么每个人都在议论机器学习而不是这些算法呢?

A:由于很长一段时刻里,这些优化算法问题现已有了令人满意的处理方案,但自那时起就一向没有成为头条新闻。几十年前就呈现了这些算法的 AI 炒作周期。现在,AI 炒作从头点燃了机器学习及其处理的问题类型:图画识别、自然言语处理、图画生成等。

Q:所以运用机器学习来处理调度问题,或许像数独相同简略的作业时,这样做是过错的吗?

A:差不多,机器学习,深度学习这些今日被炒老罗语录全集作的任何东西一般都不能处理离散优化问题,至少不是很好,作用十分不抱负。

Q:假如机器学习仅仅回归,为什么每好紧啊个人都对机器人和人工智能,这么忧心如焚,以为会损害咱们的作业和社会?我的意思是拟合曲线真的那么风险吗?AI 在进行回归时有多少自我意识?

A:人们现已找到了一些奇妙的回归运用,例如在给定的转弯上找到最佳的国际象棋移动(离散优化也能够做)或许核算主动驾驶轿车的转向方向。可是大多都是炒作,回归只精干这些事。

Q:好吧,我要散个步渐渐消化下。我现在的 Excel 作业韩雨芹老公感觉也算「数据科学」,但数据科学家这个名头有点虚幻。

A:或许你应该重视一下 IBM。

-- End --

译者说:

上一年我决议从传统水利职业跨行到 Python 范畴的时分,满脑子都是困惑与担干比心,犹疑抛弃所学多年的专业常识值不值得,忧虑如果转行失利怎样办,纠结实际作业比幻想中的难怎样办。

没遇到指点迷津的大佬,只好网上各种搜,议论纷纷,最终在「要不要转行」这个问题上浪费了很长时刻。在跨过这个坎之后,回头来看曾经那些问题,思路明晰许多。

其实,在开端阶段,比较详细的专业常识,更重要的是大方向掌握。比如,你告诉我旅途上的景色有多么多么美,但我想先知道是哪条路,好判别能不能去到。

参阅:

∞ towardsdatascience.com/ho广州增城气候w-it-feels-to-learn-data-science-in-2019-6ee幻觉老中医女朋友狄狄688498029

本文为作者授权发布,如需转载请联络原作者。

回复下方「关键词」,获取优质资源

回复关键词「 pybook03」,当即获取主页君与小伙伴一同翻译的《Think Python 2e》电子版

回复关键词「pybooks02」,当即获取 O'Reilly 出版社推出的免费 Python 相关电子书合集

回复关键词「书单02」,当即获取主页君收拾的 10 本 Python 入门书的电子版

印度小伙写了套深度学习教程,Github上星标现已5000+

上百个数据文件兼并,只能手动复制粘贴?教你一招十秒搞定!

一个提高图画识别准确率的精妙技巧

一文读懂:从 Python 打包到 CLI 东西

怎么运用 Python 进行时刻序列猜测?

美亚Kindle排名榜首的Python 3入门书,火遍了整个编程圈

十分钟建立私有 Jupyter Notebook 效劳器

运用 Python陈奇琲 制造归于自己的 PDF 电子书

1内在福利2步轻松搞定Python装修器

200 行代码完结 2048 游戏

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。