重新认识“大数据”
2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的下一个前沿》的研究报告,报告中指出大数据将成为企业的核心资产,对大数据的分析将成为竞争的关键,并会引发新一轮生产力的增长与创新,对海量数据的有效利用将成为企业在竞争中取胜的最有利武器。麦肯锡的报告发出后,大数据的概念迅速得到了IT界的热捧。在美国,对大数据的关注也很快上升到了国家竞争的战略层面。2012年3月29日,奥巴马发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划,将新投入超过2亿美金推动大数据提取、存储、分析、发现等领域技术与工具的发展。同时奥巴马号召面临挑战的行业、科研院所与非盈利机构和携手,共同迎接大数据所创造的机会。
现在,大数据的热度已从最初的IT行业延伸到社会生活的各个领域,被认为将会带来生活、工作与思维的重大变革。IBM、谷歌、亚马逊、阿里巴巴等国内外企业在利用大数据方面所做的工作使数据行业看到了新的发展路径。大数据在教育、医疗、汽车、服务性行业的应用前景所彰显的能量使企业、研究者对大数据的未来充满信心。“大数据”时代似乎已然来临。但是,到底什么才是“大数据”?是经典的Hadoop那头玩具小象?是千万级别的用户信息还是动辄XXXTB的数据量?似乎没几个人能够真正说清楚。本文梳理了近几年来关于大数据的一些观点和思想,希望能对大家认识大数据,了解大数据有所帮助。 “大数据”不等于大量数据,也不等于全部数据
如今在很多场合,一提起大数据,基本都会说“日处理数据量XXGB,上传图片XXGB”、“Hadoop集群拥有XXXX节点,总存储XXPB”……诸如此类的技术语言。但并不是数据大了,就可以达到大数据的境界。大数据的成本是非常大的,数据备份的成本、人才的培养及挖掘等都需要很大的成本。企业要首先判断哪些数据是重要的,需要被优先使用。要有目的性地去搜集数据,而不是盲目地求大求全。数据越大其中枝节越多,错误也就越多。
关于数据量与数据价值的关系,中国工程院院士、中国互联网协会理事长邬贺铨认为,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。
1
网络数据是大数据的重要来源,但网络的数据并非都可信
邬贺铨院士指出,网络的数据并非都可信。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于“谣言转发500次就是传谣”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。
以Google的流感指数为例,在2008年H7N1流感爆发时Google流感指数给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索因为,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。在谷歌流感指数的启发下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对人体的侵袭状况,而且准确率高达90%,不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于Twitter的微博判断流感有片面性。
“大数据”不但对企业非常重要,在社会管理方面同样可以发挥巨大作用
来自36大数据的一篇文章中提到,在国内,各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个部门里面看起来是单一的,静态的。但是,如果可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信
2
息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。
数据增值的关键在于整合,但自由整合的前提是数据的开放
北京大学传播学系教授,中国市场研究协会会长刘德寰认为,开放是大数据的题中之义,也是我国、企业在大数据时代必须适应的转变,而我们目前面临的情况仍然是一个平台一个数据,数据壁垒造成的局面是:有所有数据,同时又什么数都缺。比如在医疗领域,大数据被认为为医疗领域带来希望 —计算机可以在模仿人类专家在直觉方面更进一步,而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障,在这个体系中,只有通过审核的、标准的、被编辑过的数据才能被接收,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性。
再以新浪、搜狐、网易、腾讯四大微博的数据平台为例,四家公司的数据各自为阵,相互,关于微博用户行为分析都是基于对自己现有用户的分析,这种封闭的数据环境下,很多层面的具体分析都将受到很大的局限,比如重叠用户的分析,什么特征的人群会只在一个平台上开设账号,什么特征的人会在不同平台上都开设账号,在不同平台上使用风格是否相同,在不同账号下活跃度是否相同?这是在封闭的数据环境下无法进行分析的。
刘德寰认为,数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
“大数据”时代,“小数据”同样具有重要的分析价值
国内能利用大数据背后产业价值的行业目前还主要集中在金融、电信、互联网、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早。从现在业界拿出来的大数据应用实例来看,依然只是在利用传统意义上的数据分析与BI,只是巧妙地把这笔账都记在了大数据上了,海量数据时代的数据应用并没有给多少企业数字运算带来性的变化。
3
在实际生活中,绝大多数企业的数据量也并没有达到TB级规模的级别。
例如,微软的研究发现, 90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB。北京公交一卡通乘客每天刷卡4000万次、地铁1000万人次,每天累计的数据是MB级,一年下来也不到TB级,充其量只是中数据,但对这一数据量的挖掘显然就能得出北京人群使用公交的出行规律,对于优化北京公交线路的设置有足够的价值。因此小数据也值得重视,对未到TB级规模的数据的挖掘也有价值。
“大数据”时代需要什么样的人才?
Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。中国能理解与应用大数据的创新人才更是稀缺资源。总的来说,大数据人才主要分为两类:一类是技术型的,另一类是应用型的。技术型的人才,应该很了解诸如Hadoop等大数据的技术。而应用型的人才,与大数据分析更直接相关,这类人才需要同时精通业务和数据分析。
阿里巴巴集团数据委员会会长车品觉表示,大数据人才的培养的重点在于培养数据中间层,这个中间层用以连接研究数据和使用数据的两方人。从人才培养的角度来说,就是要培养数据人的商业感觉。“我们发现做大数据的人中没有很多人想用这些数据;但是想用数据的人,但是我不知道数据从哪里来。所以比较有经验的人希望能有一个数据中间层出来,让用的人可以理解有什么数据可用,让做数据的人集合经验能成为一个中间者。”
车品觉同时认为:互联网中的数据,需要用商业的眼光去分析,才有价值。 今天电子商务公司的数据分析师,有些像老板的军师,必须有从枯燥的数据中看到解开市场的密码的本事。比如,当一个具有商业意识的数据分析师发现,网站上的婴儿车的销量增加了,那么他基本可以预测奶粉的销量也会跟着上去。再比如,和传统卖场一样,网站上的产品起到的作用并不一样,有的产品是为了赚钱,有的产品是为了促销的,有的产品是为了引流量,不同的产品在网站上摆放位置当然是不一样的。一个商业敏感的数据分析师,是懂得用什么数据驱动公司目标实现的。
车品觉还指出,当下的数据分析师多是学统计学出身的,一对数据放在那里,大家都擅长怎么算回归、怎么画函数。但是这批数学的人才缺乏商业意识,不知道这些数据对业务意味着什么,看不见一堆数据中谁和谁有关系,也就不知道该用什么的逻辑分析,也就无法充当老板的眼睛了。因此,数据分析师一定要懂商业。
不要忘掉做“大数据”的最初目的
4
去哪儿网机票事业部数据营销高级经理吴君认为,做大数据不是因为要做大数据,而是为了更好地解决业务的问题。企业做大数据不应该限定在要做精准营销、要做搜索,而是解决当下的问题。“比如很多关于电子商务企业的库存问题,也可以用大数据根据以往的销售数据等作出分析,预测后面的货物预备情况等。”大数据的场景太多。其实在很多电子商务企业做大数据的时候,经常记住的是互联网的属性,忘了原本自己供应链优化的重要性。
做大数据应该打开思维,应该与业务结合,这样才能源源不断地发现大数据的应用场景、才能让大数据真正地应用到业务的每个环节中,即使你没有大数据战略。数据分析人员因为懂得大数据和数据分析的相关知识,可能会更容易理解解决问题的逻辑,所以数据分析人员应该主动去熟悉业务,然后梳理业务中存在的问题。
海量增长的非结构化、半结构化数据中确实有值得更深挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也要以渐进式为主,比较稳妥。应用企业必须认真权衡,到底企业利用大数据后能带来多少额外增加的价值?这种增加的价值是否能让企业的投入有一个较好的收获?更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?这些都需要应用企业好好考虑。
总的来说,大数据不仅是一门技术,更应该被看成是一种技能,从数据中去发现价值挖掘价值的技能。《驾驭大数据》作者、Teradata首席分析官Bill Franks近期表示,现在对大数据的炒作已经到了顶峰,似曾相识的是21世纪初互联网泡沫的破裂。事实上,这种炒作的泡沫真正破裂了将是好事,大数据话题的炒作会冷却,但是大数据分析的价值会继续下去,企业关注的重点应该是如何采取正确的策略、流程和方法从大数据分析中获得价值。
5