班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每期人数限3到5人。 |
上课时间和地点 |
上课地点:【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【北京分部】:北京中山学院/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【石家庄分部】:河北科技大学/瑞景大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦
最近开课时间(周末班/连续班/晚班):2020年3月16日 |
实验设备 |
◆课时: 共5 部份,30学时
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、培训结束后,授课老师留给学员联系方式,保障培训效果,免费提供课后技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
大纲 |
|
1) Spark Streaming:数据源和DStream2) 无状态transformation与有状态transformation3) Streaming Window的操作4) sparksql 编程实战5) spark的多语言操作6) spark新版本的新特性
Spark MLlib
机器学习 前面课程大家已经掌握第一代机器学习工具R,而后又学习了第二代机器学习工具Mahout,这里大家将会学习第三代机器学习工具MLlib,大家不仅将会了解MLlib的组件及其调用,而且会通过Spark的项目深入了解MLlib的现实使用。通过此部分大家也可以看出课程不仅着眼于现在,更是着眼于大家的未来在行业中的发展。
1) 介绍
a) Spark MLlib组件介绍 b) 基本数据类型
2) 回归算法
c) 广义线性模型 d) 逻辑回归
3) 分类算法
e) 朴素贝叶斯 f) 决策树 g) 随机森林
4) 第四章 推荐系统
5) 第五章 聚类
h) Kmeans i) Sparse kmeans j) Kmeans++ k) Kmeans II
l) Streaming kmeans m) Gaussian Mixture Model
Spark GraphX
图计算
a) 二分图b) 概述c) 构造图d) 属性图e) PageRank
项目实战
智慧城市大数据分析项目
城市中每时每刻都会产生海量数据,应用数据挖掘、机器学习和可视化技术,分析出的数据可以改进城市规划,缓解交通拥堵,抓捕罪犯。项目会使用真实的数据。 涉及到所学知识如下:
项目技术架构体系:
a) 实时流处理 Kafka,Spark Streaming b) 分布式运算 Hadoop,Spark c) 数据库 Hbase,Redis d) 机器学习 Spark Mllib e) 前台web展示数据 Struts2,echart
手机软件推荐系统项目
使用数据来自某互联网平台手机助手,项目目标通过机器学习所学知识挖掘平台手机用户喜好,给用户准确推荐手机软件,类似360手机助手、华为手机助手、百度手机助手推荐功能。
项目技术架构体系:
a) 分布式平台 Hadoop,Spark
b) 数据清洗 Hivec) 数据分析 R RStudiod) 推荐服务 Dubboxe) 规则过滤 Droolsf) 机器学习 MLlib
网络流量异常检测项目
项目目标通过机器学习所学知识检测出异常,包括检测欺诈,网络攻击,服务器传感器故障灯(本项目用户现在热门的电商网站的流量分析检测,比如京东,天猫,淘宝等)。项目功能应用于各大互联网平台中,各大互联网平台均需要网络安全予以重视和预防以及检测。
项目技术架构体系:
a) 数据存储 Hadoop b) 数据准备 Spark c) 数据分析 R RStudio d) 机器学习 MLlib e) 数据评价及调参
|