跳过正文
  1. 博客/
  2. 随笔/
  3. 编程/

怎么成为数据科学家(翻译)

·2 分钟· ·
随笔 编程 阅读总结

这是我从Quora上看到的一篇非常简短但详细的数据科学家的‘技能点’
来自eBay的一个数据科学家的回答
翻译来自Quora回答

这是面试谷歌、英特尔、脸书等大的世界五百强公司的数据科学家相关岗位常见的技术要求,在我看来主要有七点

  • 基本的编程基础

你应该了解一门统计学相关的编程语言,比如说RPython(同时要了解NumpyPandas库),还要一门数据库查询语言比如SQL

  • 统计学

你应该要能解释零假设、P值、最大似然估计和置信空间这些短语,统计学在非常巨大的数据库里压缩数据和从挑选最重要的特征非常重要,在你得出结论和设计实验过程中也帮助巨大

  • 机器学习

你必须能够搞懂K-近邻、随机森林和集合方法等机器学习算法,这些算法基本上都在RPython中得到实现,这些算法能告诉你雇主你能够将计算机科学运用在实际的管理中。

  • 数据重组

你应该要能够“清理”数据。比如数据库中"California" (加利福利亚)和“CA”是一样的,数据库里面可能出现用负值代表人口。这个总的来说就是识别坏(或者不正确)的数据然后校正(或删除)他们。

  • 数据可视化

数据科学家不能就只是自己搞懂就行,他们需要把他们发现告诉你的产品经理,这样就能确保数据能很好的应用到程序里面去。所以,熟悉数据可视化工具比如说ggplot非常重要(这样你就能展示你的数据而不是仅仅谈谈而已)

  • 软件工程

你应该了解算法和数据结构,因为这些东西在你写高效率的机器学习算法时非常重要,知道如何使用分支和使用高效的数据结构:队列、数组、列表、堆栈、树等等。

  • 产品管理

这个绝对是有争议的,但是那些了解产品的人将会知道什么指标是最重要的。这里有很多数据可以用来做A/B测试,但是产品导向的数据科学家将会把最好的指标用来做测试。你要知道这些的意思:可用性测试、线框、保留和转换率、流量分析、客户反馈、内部日志、A/B测试。

相关文章

刷题笔记
·1 分钟
随笔 编程
在牛客网刷了16道题了,在这做个总结 概况 # 编程题无非两种一种考算法,一种考数据结构
用例子学TDD
·4 分钟
随笔 编程 TDD
翻译自TDD-byexample 作者Kent Beck, Three Rivers Institute 有删减 表现 # 测试驱动开发核心: # 除非你有失败的自动化测试千万不要写一行新代码 拒绝重复 这两个的简单原则构成了TDD的核心,但是他能规划一个复杂的项目乃至一个团队.这里有一些TDD的建议.
TDD-隔离测试
·4 分钟
随笔 编程 TDD
隔离测试是相对与于整合测试来说的,现代软件架构流行分层式、模块化,而隔离测试就是相当于在每层上进行测试,整合测试就是跨越多个层进行测试
TDD测试开发理解
·3 分钟
随笔 编程 TDD
看了 « Python Web 开发 测试驱动方法» 以后, 感觉自己找到自己的一些项目之所以不能够很好的 维护下去的原因.总结了一下自己的理解, 记录下来.
js的this引发的思考
·2 分钟
随笔 编程
最近这几天在开发一个hmtl5的游戏, 但是对于js怎么使用面对对象来编程有点困惑,查了一些资料 整理如下.
泛型继承的理解
·1 分钟
随笔 编程
泛型对于解决面对对象编程的算法设计可以提高其运算速度,但是对于引用类型来说还是没什么差别,因为引用类型只是指针的地址的调用,简单来说泛型还是挺好理解的,但是对于泛型、非泛型、继承和接口的融合就有些迷惑了。 # 比如说这种接口 # public interface IEnumeratot<T>:IDisposable,IEnumerator,ICompare<T> 这个泛型接口继承了两个非泛型接口,和一个泛型接口。 # 我一开始理解泛型就是一个个模型,只要我们把类型一个参数赋给他,他就能生成一个标准的类型,他缺少的只是一个参数而已,我们引用的时候感觉就像我们引用一个“全体方法”,把参数赋给类型后就可以一直调用类中的方法了,但是对于接口的继承如何理解? # 对于泛型类的继承,继承的类必须实现泛型的参数或者保留泛型的参数,比如下面