2012年达沃斯:大数据不是“灵丹妙药”

    大数据的时髦是从2011年开始的。中国对这波趋势跟进的并不慢,旋即在2012年被称作中国的大数据元年。这其中,有两本书功不可没。前有涂子沛先生的《大数据》一书,从美国政府的数据信仰、政策和实践娓娓道来,让中国的意见领袖和知识精英接受了一次思维的洗礼;年末维克托·迈尔·舍恩伯格先生的《大数据时代》一书,则是系统论述大数据理念的奠基之作。如果说前者着力于发蒙——大数据可以做什么?后者则注重解惑——大数据该怎么做?


    随后在年末年初的喧闹中,大数据产业园、大数据日、大数据专委会、大数据专业、大数据实验室和各种大数据峰会接踵而来。物联网和大数据、云计算和大数据彼此抱团取暖,来抵消决策者对层出不穷新概念的审美疲劳。


    其实,大数据还只是在民间热。相比起物联网和云计算等新兴产业战略,大数据在国家战略层面还没有得到实质性的支持。这主要是对大数据雾里看花还存有很多疑惑:大数据究竟是什么新玩意儿?与以前的数据库、数据仓库、数据挖掘和商业智能有什么区别?市场到底有多大?中国应该重点发展什么?竞争优势和劣势在哪里?


    一个鲜明的现象是,每每某些官员们在台上指点江山、大谈大数据战略云云,而在台下则一见专家就虚心请教大数据新在什么地方。“两张脸”折射的是心无底气而腰杆不直。再仔细听内容,基本都来自2011年麦肯锡的《大数据:创新、竞争和生产力的下一个前沿》和2012年达沃斯的《大数据,大影响:全球发展的新可能》。“剩饭”不断炒,误国误民。


    实际上,大数据的“数据”背后是“以讹传讹”,其本质有强烈的商业目的。


    根据公开的资料,idc对于每年创建和复制的信息数据量做了预测:2011年1.8zb,2012年2.8zb,按照每两年翻一番的速度,2020年达到40zb。有人质疑,这个数据怎么算出来的?难道摩尔定律也适用大数据?而idc则秘而不宣。实际上,这个研究是在emc赞助下完成的,所以emc就笑而不语。


    如果说对静态数据(data at rest)大体量的预测有助于存储的销售,那么动态数据(data in motion)的大体量无疑跟网络需求绑在了一起。于是,cisco公司一个类似的预测则布道:2016年数据移动的总量达到1.3zb。


    但是,所有这些数据加起来都不如谷歌eric schmidt的说法有感染力:从人类文明曙光到2003年数以万计的时间长河里人类一共产生了5eb,而到2010年每两天人类就能产生5eb的数据。而究其研究方法,这些数据是怎么得来的也许只有天知道。奇怪的是,没有谁去质疑谁,因为自家发布的数字也是胡说八道。其实这些公司心里都明白,只有默契地把概念炒作起来大家才都受益。


    数据总量的增长主要归功于非结构化数据的增长。广义的非结构化数据也包括了半结构化和多结构化数据,目前普遍被认为占到总量的85%以上,而且增速比结构化数据快得多。低信息密度的非结构化数据是大数据的一大挑战,而挑战才是机会,业界巨擘们创造了很多新的概念来迎接非结构化数据,nosql数据库就是其中最亮丽的一个。


    对此,数据库行业的老法师mike stonebraker对此耿耿于怀,不惜力推“血统”更纯正的newsql数据库;sybase公司的cto irfan khan甚至说大数据(这个新概念)根本就是个大谎言,声称他们的数据仓库工具早就能分析包括非结构化数据在内的大数据。


    实际上,这类总量数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说,没有太大意义。他们更关心的是个体行业、企业甚至个人数据的状况。


    由此,毋庸置疑,必须要对大数据有清醒的认识。大数据是一种新的数据形态和实践,它不是取代当前主流的数据应用,而是与之并存。并且,在今后相当长的时间内,它仍然是个新鲜事物。即使年复合增长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美金左右(idc在2012年底的预测)。不切实际、一窝蜂地上大数据项目不应鼓励。明明不算大数据,却偏要乔装打扮,削足适履上马hadoop和nosql更不足取。


    大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对于一个企业或系统来说,真正的挑战在数据采集而非存储。


    微信在设计之初就把数据监控精细化,并纳入基础框架,这是意识和实力的体现。有多少公司像彭博社那样“如饥似渴”地采集数据?它能够雇佣一个卫星每周对位于俄克拉何马的美国最大原油储备库拍照,根据油罐浮动顶的阴影长度来判断原油储备量的变化。所以,成功者有成功的必然性。


    其实“数据即价值”的价值观早已存在,value不是大数据专享的属性,小数据照样有大价值。大数据的功劳在于唤醒大家的意识和觉悟。同样,从数据中发现价值的实践由来已久,横跨数据库、统计学和机器学习交叉学科的数据分析是大数据分析的基础,但传统的数据分析实践是无法适应大数据的发展的。


    不能神化大数据,它不是什么灵丹妙药,也不能矮化大数据,认为它就是包装旧概念。对一部分人来说,大数据已经是个客观存在和竞争优势;对绝大多数人来说,大数据可以是一种“从现在做起”的世界观,是一种未雨绸缪、决战未来的战略。





大数据培训进修班第二期来临,更强的师资阵容,全新的课程安排,多面的大数据讲解与现场实训,还在等什么,马上报名吧。

参加相关培训并通过考试的学员,可以获得: 1.由人力资源和社会保障部中国高级公务员培训中心、全国信息化计算机应用技术水平教育培训管理中心颁发《大数据技术工程师技术水平教育培训》证书。该证书可在人社部中国国家人事人才培训网查询(http://www.chinanet.gov.cn),可作为能力评价、考核和任职的重要依据。 2.中国科学院计算技术研究所教育中心颁发的《大数据技术工程师》培训证书。

大数据技术已经成为互联网后的又一个里程碑意义的科技革命与生产力革命,也是产业结构战略调整的战略机遇。如何管理自身的业务大数据,从中获取智慧,对传统业务再造并实巨大价值的产品和服务?如何将大数据困境转换为大数据宝藏?如何从大数据概念炒作到实践落地?

由北京理工大学大数据搜索挖掘实验室、中国科学院计算技术研究所教育中心联合主办,大数据论坛联合承办,开设大数据技术进修班。聘请北京理工大学赵燕平教授、张华平博士、北京市外办信息中心姜伟主任、英特尔中国研究院首席工程师吴甘沙、清华大学马宝君博士等知名专家全面讲授大数据架构、大数据搜索、大数据挖掘以及大数据应用四大板块,分享亲身经历的大数据应用,并为学员提供大数据搜索挖掘工具的实训。

 

本次培训讲师:

 

张华平:北京理工大学大数据搜索挖掘实验室主任,博士,副教授

李德伟:国家工商总局行政学院副院长

赵燕平:北京理工大学教授,教育部电子商务专家

姜伟:北京市外事办信息中心主任

吴甘沙:英特尔中国研究院首席工程师

马宝君:清华大学搜索评价与推荐系统专家

杨泽明:中科院高能物理研究所副研究员

 

价格:4980元 (包含发票,讲义,教材,工作餐,与讲师互动自助晚餐会); 老学员或同单位三人以上报名九折优惠;全日制学生凭学生证优惠价格2980元,不含发票。差旅及食宿费用自理。

 

地址:北京理工大学理工国际交流中心

课程介绍:

13日

张华平    《科学的大数据观》

李德伟    《大数据的哲学思考》

吴甘沙    《大数据架构、计算范式与应用实践》

杨泽明    《云计算关键技术与应用实训》

14日

张华平    《大数据精准搜索关键技术》

李望      《实训演练》(JZSearch大数据精准搜索引擎实训演练)

张华平    《大数据挖掘关键技术》

学员互动  《NLPIR大数据挖掘平台学员实训》

15日

姜伟      《大数据背景下的电子政务实践》

马宝君    《大数据背景下的电子商务实践》

张华平    《大数据答疑解惑》(针对每个学员事先准备的问题,每个人3分钟机会;然后根据投票结果选取3个经典问题进行综述。)

 

【报名通道】:  http://118.192.14.52/bigdatatrain/

 

报名电话:13681251543   010-62648067

 

转载于:https://my.oschina.net/u/1160813/blog/175977

相关推荐

相关文章