首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    中华读书报 2012年05月16日 星期三

    大数据是谎言还是奇迹?

    雨 辰 《 中华读书报 》( 2012年05月16日   17 版)

        在发展趋势和商业价值的双重作用之下,就算大数据计技术可能是一项新瓶装老酒的技术,但由于它与物联网、云计算、移动互联网、车联网、智能手机、平板电脑等热门技术产生的数据增长息息相关,因此大数据终将会变成一个大奇迹。

        近几年来,IT业可谓是进入了“新概念”高发期,各类新奇的名词层出不穷。但这些新概念名词或多或少地引起了争议,如云计算被称为是“晕计算”,物联网被叫成了“雾联网”。在这之后,大数据的概念得到了IT厂商的一致追捧。但接下来,福布斯杂志的一篇名为《关于大数据的大谎言》一时间在业界引起了轩然大波。那么,大数据究间是大谎言还是大奇迹呢?

        大数据的由来

        IT系统内整体的数据量正从TB级跃升为PB级,从这个角度来看,迅速增长的数据量使得大数据时代已经来临。而更为重要的是,尽管数据量在飞速提升,但真正对企业有价值的,却是从大量的数据中获得有价值信息。以视频为例,连续不间断监控过程中,可能有用的数据仅有一两秒。这样,快速地把这一两秒有价值的数据提取出来的方法,就是大数据技术。

        事实上,以往的数据多数都可以存储在数据库里,可以用二维表结构来逻辑表达实现。这些数据我们可以称之为结构化数据。但是,网络日志、视频、图片、地理位置信息等类型的数据,却难以实现结构化表达,从而被称为非结构数据。因此,从非结构化数据中实现快速查询,为大数据技术提供了新的应用价值和技术含量。

        信息化的普及使得越来越多的企业踏上了“数字化生存”之路,因此,在大数据时代,数据也成了企业资产的一部分。这样,当数据成为财富的一部分时,运用大数据技术实现“理财”,受到了业界的追捧。从这个角度来看,大数据技术的走红就是一件顺理成章的事情。

        大数据是不是谎言?

        大数据的迅速窜红也给自己带来了麻烦,业界开始出现对大数据质疑的声音。其中一种声音颇为强烈:一位IT界资深技术人士认为,以大数据技术为依据的网络数据挖掘技术并不是新鲜技术,很早以前就存在以此技术为依托的产业,这就是被大家称之为“CEP”的产业,只是长期以来不为业内非专业人士所知而已。这就如同“分布式计算”概念以前很少被人提及,但当它演变为“云计算”技术之后,却变得身价大增。

        关于这个问题,其实只要我们关注一下造成数据大量增长的原因,就明白了。在这些因素中,社交媒体的普及是一个重要的原因。Facebook统计数据,社交分享信息量以倍数增长,今天分享信息总量比两年前增加了两倍,从现在开始后的一年,用户所产生的信息分享总量将会翻番。扎克伯格的社交分享定律可以用一个公式来表示:Y = C*2^x。其中,X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量。如果这个公式成立,那4么20年后,一个用户的信息分享量将是今天的一百万倍还多,即2的20次方。尽管这一定律的实现会受到诸多限制一样,但它所代表的大趋势并没有错。这正如曾主导IT工业速度的摩尔定律一样,会在相当长的时间内主导数据的增长量。

        因此,有两点我们是可以得到肯定答案的。一是数据会长期保持高速的增长状态,二是从大量数据中提取出有用信息的商业价值,已经得到越来越多企业的认同。这样,在发展趋势和商业价值的双重作用之下,就算大数据计技术可能是一项新瓶装老酒的技术,但由于它与物联网、云计算、移动互联网、车联网、智能手机、平板电脑等热门技术产生的数据增长息息相关,因此大数据终将会变成一个大奇迹。

        大数据的影响

        IT技术的发展还在呈现出另一个趋势,这就是技术之间有了越来越多的关联性。新技术开始变得象蝴蝶效应中最早挥舞翅膀的蝴蝶,不经意的一挥却可能造成一场风暴。这就使得我们无法忽视任何一项可能“走红”的新技术。

        而事实上,大数据已经在挥舞过它的翅膀了。要实现大数据技术,需要用到大规模并行处理数据库和分布式数据库。这使得Hadoop数据库迅速窜红。而在计算机图书领域,以《Hadoop权威指南》、《Hadoop实战》近来已经常性地成为了数据库类图书排行榜的宠儿。

        此外,大数据技术的实现基础还包括可扩展的存储系统。国内存储市场已保持了近十年的高速成长期,但由于存储技术多由国外发源而来,所以国内存储方面的技术图书并不是太多。但随着《大话存储》等技术图书的兴起,存储类图书也开始有了自己的一席之地。而大数据技术的火爆,极可能给存储类图书提供新的可操作性题材。

        最后,大数据技术本身也可能作为一个热门话题,在未来一个时期成为计算机图书市场的一个热点。

        总结起来,操作大数据技术需要用到业务技能和将数据模式化、样本化的数学技能,以及相关IT技术,因此,大数据技术类图书的引爆点可能是多元的。关于这一点,出版社的策划编辑们也许需要眼光放得更远,才能适应大数据技术类图书的运作。

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有