班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每期人数限3到5人。 |
上课时间和地点 |
开课地址:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站) 【武汉分部】:佳源大厦【成都分部】:领馆区1号【沈阳分部】:沈阳理工大学【郑州分部】:锦华大厦【石家庄分部】:瑞景大厦【北京分部】:北京中山学院 【南京分部】:金港大厦
最新开班 (连续班 、周末班、晚班):2020年3月16日 |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、培训结束后,授课老师留给学员联系方式,保障培训效果,免费提供课后技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
|
- 第1章Spark中决策树相关算法
1-1回顾决策树
1-2信息增益的计算
1-3参数maxBins含义
1-4其他重要参数讲解
1-5类别值转换处理
1-6构建决策树分类模型
1-7模型训练以及debug
1-8构建决策树回归模型
1-9Spark中的梯度提升树
1-10性能提升参数
1-11Spark中的随机森林模型实现
第2章运动数据分类
2-1业务场景定义
2-2加载数据
2-3探索每一种活动类型数据分布情况
2-4计算每一行的NAN个数
2-5计算NAN的占比
2-6找出NAN值太多的无效行
2-7每一列缺失值的探索
2-8心率缺失值的处理
2-9其他字段缺失值的处理
2-10统一数据
2-11对activityId进行索引标记
2-12特征值中类别值的索引标记
2-13模型训练
2-14模型的debug
2-15模型评估
2-16混淆矩阵
2-17计算正确率
2-18混淆矩阵的label
2-19计算精确率和召回率
2-20模型部署
|