新闻资讯

新闻资讯 媒体报道

数据科学与大数据技术都要学习什么?

编辑:011     时间:2021-08-24

程序员小陶

目前从事大数据工作一年,2019年很多大学开设了大数据相关的课程,具体课程内容包含什么,我不太清楚,但是可以以过来人的身份说一下【大数据开发】方向需要的技能以及学习大数据开发的学习路线。

2020大数据学习路线图

如果图片不清晰,可以私信我获取高清大图。

上面也只是罗列了一些我工作中使用到的技术,只是冰山一角。如果你可以想学习大数据或者乐于分享技术,可以一起来交流。

数据科学

偏工程类的岗位,首先需要熟练使用 SQL 和 Python。在此基础上学习下面几个部分:

第一部分:数据科学入门熟悉数据科学问题解决流程,包括探索性数据分析、异常值的处理,如何与不同的利益相关方有效沟通。

第二部分:深度学习神经网络是深度学习的基石。在这部分课程中,你将学习神经网络的基本原理,并在实战项目中用 Python 和 Numpy 从头开始构建一个神经网络。你还将简要了解 TensorFlow,以及如何用它来搭建深度神经网络。在此节中,你还会拓展学习社交媒体的情绪分析方法。

第三部分:软件工程发展数据科学家核心的软件工程技能。你将学习到如何书写整洁和模块化的代码,如何对代码进行测试与审查,并学习面向对象编程。你还会开发与部署自己的数据应用。

第四部分:数据工程学习处理完整的数据科学工作流中的所有数据,包括运行数据管道、转化数据、构建模型、将解决方案部署到云端。你还会学到 NLP 数据管道与机器学习管道的原理与应用。

第五部分:试验设计与推荐系统学习使用科学的试验方法来审查数据结果,并开展和分析 A/B 测试。学习基于知识和内容的推荐系统机制,并采用矩阵分解来验证与优化推荐系统效果。

第六部分:如何使用 Spark 来处理大数据,并规模化构建机器学习模型,包括如何使用 PySpark 来清洗大数据集及建模。PySpark 是 Spark 为 Python 开发者提供的 API。本课程介绍了大数据及 Spark 在大数据生态系统的角色,并通过互动式练习,处理和清洗数据集,从而熟悉 SparkSQL 和 dataframe APIs,并使用 Spark 机器学习库来训练机器学习模型。

以上六部分的学习大纲来自某外国学习网站,近期我也打算学习深造一下,数据科学家应该是每个做数据开发向往的顶部了吧,加油吧少年!

持续更新中...


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

回复列表

相关推荐