手机版
       

大数据,开启重大的时代转型(1)

作者:维克托-迈尔-舍恩伯格   出版社:浙江人民出版社  和讯读书
  大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。

  就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

  【大数据先锋】天文学,信息爆炸的起源。

  只有考虑到社会各个方面的变化趋势,我们才能真正意识到信息爆炸已经到来。我们的数字世界一直在扩张。以天文学为例,2000年斯隆数字巡天(SloanDigitalSkySurvey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×242字节。不过,预计2016年在智利投入使用的大型视场全景巡天望远镜(LargeSynopticSurveyTelescope)能在五天之内就获得同样多的信息。

  天文学领域的变化在各个领域都在发生。2003年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股。而其中三分之二的交易都是由建立在算法公式上的计算机程序完成的。这些程序运用海量数据来预测利益和降低风险。互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢”(Like)按钮或者写评论次数大约有三十亿次,这就为facebook公司挖掘用户喜好提供了大量的数据线索。与此同时,谷歌子公司YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传。twitter上的信息量几乎每年翻一倍,截至2012年,每天都会发布超过4亿条微博。

  从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。

  我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一个确切的数字。尽管测量的对象和方法有所不同,但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁?希尔伯特(MartinHilbert)进行了一个比较全面的研究,他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件。马丁?希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

  【大数据的力量】据他估算,2007年,人类大约存储了超过300艾字节的数据。下面这个比喻应该可以帮助人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB的文件,而一个艾字节相当于10亿GB,一个泽字节则相当于1024艾字节。总之,这是一个非常庞大的数量。

  有趣的是,在2007年,只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。但在不久之前,情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,但实际上,这些概念仍然是相当新颖的。甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

微博评论

感谢您的参与!
查看[本文全部评论]