2013-05-11《大数据》培训笔记。很忙,现状才迫于压力优先整理出来。
写在前面:很高兴认识了在美国进修过的朱老师。带我们接触好些新鲜事物。
推荐的书籍《大数据》——涂子沛,《大数据•互联网大规模数据挖掘与分布式处理》(偏向技术)。
======================
知识:
大数据的4V特征——“数据大”、“海量数据”不同于“大数据”;
大数据主要与“数据分析”有关,从中提取有用信息;
Map-Reduce;
hadoop;
目前大数据的关注点:技术、运用;
数据价值密度;
大数据价值:网页分析,对个人带来方便,对商业带来利润;
大数据的数据共享、数据交叉服用——数据提供方提供数据共享接口;
非结构化数据–如视频;
大数据治理:元数据、安全问题、延时问题、容量问题、成本问题(企业关注的)、数据的过期、灵活性、再用感知;
商业模式:广告定向、情绪分析;
云生态环境比喻;
大数据产业链三个维度;
数据新闻,数据新闻学,开源《数据新闻学手册》。不同新闻视角和理念;
网络没听到兴起。新闻的客观性,真实性;
大数据对社会的管理,对信息的透明度影响;
物联网的根本和核心基础还是互联网,在此基础上的延展;
误区:一个图表的展示,不能就意味着是数据挖掘。数据挖应该是掘建立在数据的基础上;
数据挖掘方法:文本挖掘(文本分类、文本聚类、信息抽取、关联规则);
数据清洗,最重要环节;
数据挖掘的实现(热点),行为分析:发现用户模式,反竞争情报活动;
数据质量,需要数据清洗;
大数据的算法;
Mao-reduce,Map映射,大数据处理、并行;reduce化解、归并。——数学中高维化解为低维的思想,化繁为简。
Hash在大数据集中的重要性;
Map-reduce,并行模型,方便不会并发编程人员的在并行分布式中开发;
Map-reduce用途:统计十年的词频。方一,单线程遍历;方二,多线程遍历;方法三,人工化解、组合,再单线程;方法四,map-reduce实现自动化解、组合,自动拷贝和整合。
map-reduce对加、减、乘的运用;
Map-reduce会产生大量临时文件,需要管理临时文件;
Map-reduce扩展——回滚。大数据集控制恢复,时间差的事件回滚;
LSH,局部敏感hash。运用:视频数据查找,指纹匹配、虹膜匹配、细节特征点(网格块的集合–一对多、多对多)。过滤、验证的框架。
数据清理,大数据的第一步,过滤后的数据远小于原数据;
相似项发现:Web Page。Head处理,全文Hash,相似点查找;
PageRank:快速计算(0-10)。每个页面的流行度、各网的关系度。网络爬虫。(弊端,存在词项作弊、搜索干扰、恶意提高排名。)5亿个变量、20亿个词汇。优点:离线计算;缺点:新网站容易被冷落;
HITS算法。链接相关。
购物篮模型;
apriori算法,离线算法offline,在线算法online,贪心算法,相似度算法;
二分图匹配、完美匹配、完备匹配;
效用矩阵。稀疏矩阵;
内容分析器(决策树)、内容学习器;
智能推荐——难点。实现电影、产品、新闻等推荐给客户;
大数据安全性问题。欧美立法。google的隐私保护策略,告知收集什么西诺西,如何使用信息;
大数据取舍之道;
删除(修改)信息的同时相关联的备份也删除(修改)——热点问题;
情感分析——热点
大数据时代我们需要做什么:创新,本土化的规则库;
《赛迪译丛》
数据分析为核心;
知识库技术——知网;
PB级数据管理技术;
神经科学;
遗传算法运用;
可视化技术,标签云;
大数据的交易、统计、协议、规范;
数据的共享需给予奖励;
促进知识产权的框架;
======================
案例:
去年11月11日一天,淘宝利润达到100亿。这其中涉及的数据量之大可见一斑;
GPS的推送服务带来的数据量;
监控视频信息的大数据处理,公安侦案,车流分析;
广州井盖的FFID传感器运用,自动报警;
淘宝、卓越广告的社会情感分析运用;
山东物联网实现农场运作;
广州东升包装蔬菜,有条码查询;
买车、选车的发动机——遗传算法;
======================
知识面拓展:
在美国,linux(如ubuntu),会占据好到一部分用户群;
国内现状:加工、山寨(抄袭得比原版的差,影响原版形象);
超算,超级超级计算机。超算中心;
Gmail有打电话功能,在美国免费,在国内收费;
试一试,亚马逊免费云服务ec2。国外已经用了多年;
百度&google的搜索区别:百度做商业运营,google做的是算法;
监控视频信息法定保留时间6个月;
日后水、电、煤气读数数据实现集中管控;
美国巡天卫星;
美国犯罪成本高,以至于一般人不愿意犯罪;
美国125白人区,广州小北的黑人住地;
google文控发布了很多前沿技术和论文;
美国信用体系,手机号码变更了,15分钟后信用卡就因没更新卡主信息不能用了;
国家留学基金委;
美国建桥梁时候会预先考虑双层、多层设计的需求;
哥大研究课题:隐私信息封装,以免被数据收集,如用户名、密码;
office2013的亮点,打开速度快了,对软件生命周期进行了管理。线加载必须的,再后退打开需要的剩余部分;
IBM的战略;
暨大带宽5.93G,各个运营网络;
数据前景:数据噪声分析,数据清理;
2011年MIT成果,无线供电,(问题辐射);
生命科学:验血试纸,快速检验;
纽约地铁亮点;
美国人喝凉水,不烧水;
去美国必带:抗生素(不能随便购买)、保济丸(水土不服);
“爱课堂”网易上有的,精品视频公开课;
CNN,探索发现,亚太六号卫星合法接入;
暨大的经管名气大;
google的延展服务多;
图片搜索;
新闻的可视化处理、新闻的人性面、新闻视角。记者角色的变更;
虚拟数字工厂;
社会犯罪心理学;
未来家庭的中控系统;
数字城市(智慧城市);
FFID,让物品说话;
美国堵车少的原因之一:人的分散居住,用交通工具衔接,配套设施跟上,值得我们城市规划的参考;
美国阅读的习惯,kindle电子书;
硅谷当前大部分技术人员是华人;
信息化,咨询服务业;
KDD-CUP;
数据挖掘,用数据来说话;
客户行为记录;
信息系统,需求分析是最重要的;
商业理解,梳理流程;
学员讨论:高级职称、副高职称,论文;
美国药店的具有小百货性质;
美国常吃的:蓝莓、车厘子、原味牛奶(无加工);
哥伦比亚大学图书馆的鸽子、松鼠;
大都会博物馆;
城市规划设计的以人为本、人性化;
美国快慢地铁的区别;
学习美国先进理念和技术;
IBM DB2最大支持100节点,Oracle DB最大支持32节点。数据快照,精确到秒。
美国各个店铺的共存,各个店营运方向不同,不同特色;
教育的知识版权,主编、著(自写)、编;
有专门的数据清理公司;
有专门的数据恢复公司;
建议企业使用数据的灾备处理;
美国小学就开始学习算法了;
米国对“走鬼”处理,不定期封路做步行街给他们摆摊,正确引导他们;
经济学中长尾效应:头部流行元素,尾部个性元素,而尾部可能大于头部;
《NCIS》电视剧;
50多家网站就有60多个隐私抓取,有些网站有上100种隐私抓取;
美国的电话黄页;——个人信息区别于敏感信息;
ec2有密码文件(密码生成器),以生成密码;
汽车传感器,车速、车轮,车轨迹;
安装上传感器,检测海底,用于地震预测;
社交网络–用户体验,个性化,社交媒体;
机器视觉;
从各行各业找到附加值;
众包;
《华尔街》电影;
预计2018年,美国需要大量大数据分析师;
城市规划设计,需要考虑延展性;
复活节,艺术、设计的展示;
生活的态度,汽车做诶生活的必需品而不是奢侈品;
普林斯顿建设的历史感和厚重感;
======================
理论
“大数据”在2009年成为热词。一个新技术从发现到御用需要50、60年。
病毒发明者说:每个数据对于电脑而言都是安全的,真正要管理的是人;
与人打交道,需要先出规则;
学术纯净度;
山寨影响国家的创造力;
大数据与哈希Hash有很大关系;
请求、需求、祈求中寻求平衡点;
======================
想法:
系统的集成同时,带来数据对接的需求,数据对接技术的需求;
过于依赖技术而忽略了自然特性,如自动电饭煲、中医;
网络编程技术的需要增加;
近期评论