“大数据分析师”就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。”而大数据和传统数据的较大区别在于,它是在 线的、实时的、规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。那么大数据分析师又需要哪些技能呢? 1. EXCEL、PPT(必须精通) 数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到**了。 2. 数据库类(必须学) 初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。 3.统计学(必须学) 如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、较大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。 4. 机器学习(数据分析师要求会选、用、调) 常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。 5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境) hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。 6. 文本类(选学,有公司要求的话会用即可) 这部分不熟,基本要知道次感化、分词、情感分析啥的。 7. 工具类 语言:非大数据类R、Python较多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。 可视化(选学):tableau、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错。