工业大数据分析分类算法教学讲义.docx
《工业大数据分析分类算法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析分类算法教学讲义.docx(7页珍藏版)》请在第一文库网上搜索。
1、任务6.5分类算法任务概述分类是数据挖掘的一个重要技术,是数据挖掘中最有应用价值的技术之一,其应用遍及社会各个领域。分类任务就是通过学习得到一个目标函数(通常也称作为分类模型,即分类器),把每个属性集映射到一个预先定义的类标号。分类和回归都可以用于预测。和回归方法不同的是,分类的类标号是离散属性,而预测建模的回归的目标属性是连续的。本节以随机森林分类为例讲述分类算法的案例实操过程。图6-5-1随机森林分类图标随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。和决策树类似,随机森林可以处理名词型特征,不需要进行特征缩放处理(如归一化),能够处理特征间相
2、互交互的非线性关系。随机森林支持连续数据或离散数据进行二分类或多分类。数据格式:必须设置类属性(输出),且类属性(输出)必须是离散型(名词);非类属性(输入)可以是连续型(数值)也可以是离散型(名词);参数说明:参数设置决策例个数信息度量方式QB1机神子星否显云变量重要性5gini123456点壬查看功靛浪的他取消图6-5-2随机森林分类-参数设置表6-8随机森林分类-参数说明参数类型描述最大深度文本框树的最大深度,整型,取值范围:0,8),默认值为5决策树个数文本框此参数用以设定随机森林中投票器(决策树)的个数,整型,取值范围:1,8),默认值为20随机种子文本框建模中用以生成随机数的随机种
3、子,整型,随机种子的范围为大于0小于1.0E8的正数,默认值为123456信息度量方式下拉框选择信息度量方法,字符型,取值范围:“gini”、“entropy”,默认值为“gin”特征选择方法下拉框生长树时,选取特征列的方法,例如:Onethird表示随机选取1/3的列进行建模,文本型,取值范围:“auto”、“a11”、“sqrt”、“1og2”、“Onethird”,默认值为“aut。”是否显示变量重要性复选框用户选择是否分析每个变量对于分类结果的影响程度,如果选择是,则在洞察中显示参与建模的每个变量对于模型的贡献程度情况本段中所用数据为风机结冰故隙数据:fengji_data_t1_de
4、mo2.csv0数据集案例背景:叶片结冰是风电领域的一个全球范围难题。低温环境所导致的叶片结冰、材料及结构性能改变、载荷改变的问题等,对风机的发电性能和安全运行造成较大的威胁。随着风机的设计功率不断提升,现有风机塔筒高度也在不断增长,因此即使在北部沿海和山区地区,冬季里大量风机都会触碰到较低的云层,在低温和潮湿环境下非常容易结冰。目前风机运行的实时数据主要由SCADA系统进行存储,对叶片结冰故障的监测手段主要是比较风机实际功率与理论功率之间的偏差,当偏差达到一定值后会触发风机的报警和停机。然而,触发报警时往往已经发生叶片大面积结冰现象,在这样的情况下运行会增加叶片折断损坏的风险。虽然许多新型风
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 分类 算法 教学 讲义
