这次讲课与以往几次的地点不同,这次再报告厅里面进行,人数也比以往大约多了一倍。第二天才意识到,这位讲师是本次培训教材的主要作者。此外,根据他介绍,从事数据挖掘工作近十年,涉及的行业也广泛。这更贴近与工作。
下面先凭自己记忆说说课程主要知识:(也许记忆记下了的知识,才是自己真正吸收的)
1.数据挖掘的概念:数据挖掘的主要目的是从已有的数据中提取未知的,有价值的信息,从而为企业“决策”使用,给未来做决策提供依据。
数据挖挖掘前,至关重要的是明确本次数据挖掘的目的,否则即便具有数据挖掘的形式,也达不到数据挖掘的效果。
数据挖掘需理清框架,逐层落实,思路要清晰。
2.数据挖掘带来该类行业企业的诞生。这类企业创业成本低、门槛低,发展速度快。可以想象,未来会诞生数据挖掘行业的巨头。
3.“数据化运营”向“运营数据”。如阿里巴巴信贷的诞生(透过历史记录评估可贷款额度,评估速度快,给传统银行贷款带来冲击。),Fastcast预测机票价格。汽车资讯数据中心,餐饮智能化服务。
4.数据挖掘八个等级:普通固定报表,查询报表,多维度分析,警报,统计分析,预报(预测性建模)…。其中前4种是运用现有数据暂时现有现状,而后四种着重体现现有数据对未来的影响。
5.数据挖掘区别于BI(商业智能)。BI着重对数据仓库的不同纬度分析;而数据挖掘着重未来,为未来做决策提供依据。
6.数据挖掘常用方法:分类&回归,聚类,关联规则发现,时序模式。“分类”与“聚类”区别:分类是数据中已经有明显属性的(如具体分类);“聚类”只是认为给定群组数量,由系统根据“组内很相似,组间很互异”计算出数据的类别,再由人工贴上标签。
7.神经网络算法。输入层、隐藏层、输出层。训练样本-》建模-》预测。
8、数据挖掘过程:数据取样、数据预处理、建模&,检测,结果&反馈。其中建模与反馈两个环节很可能需多次循环才能得出好的模型。
数据挖掘的过程注重业务与技术结合,需资深的业务,也需有几样的数据抽样(专家抽样数据)。特征提取,关键特征有时候至关重要。数据挖掘关键是结合业务。
9、数据建模钱,需对客户更的“指标”进行筛选,不必要的维度进行降维。
10.讲师的平台是使用现成开源的数据挖掘算法(这些算法已比较成熟)没必要对一些已经很成熟的东西再单独开发,
11.云计算展示中:2个节点(主节点、服务节点),云计算平台的监控功能很重要,提供网络、性能、任务情况、Map Reduce情况等监控。
12.数据挖掘分析过程:需求梳理(业务有时候难度是很大的),搭建分析体系,分析与建模。
13.常用算法:BP神经网络、决策输、
14.偏差检测运用(一般是聚类得出差异很大的数量很少的单独一个分组),入侵检测、诈骗发觉。
想法:对案例举一反三。业务理解能力需要提升。
小鸿说:建模就是,y=f(x),对n个输入参数处理后输出结果。在外界看来,可把建模视为黑盒,不需要知道里面具体运作,只需要知道输入输出。
父亲说:数据挖掘,在垃圾堆里见宝贝。——引申:在一堆垃圾与宝贝的数据堆里,找到需要的宝贝,结合成需要的宝贝。
近期评论