我们在2013年11月的点评中,已经向大家展示过大数据类图书在排行榜中的成绩。然而,时隔两个月,我们又被迫将大数据图书作为主角,将它们单独列为一类,来加以研究。而我们之所以被迫这样做,是因为大数据类图书的种类已经有了质的飞跃。
大数据的官方定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。很显然,这个定义过于简单,以至于我们在开始对大数据产生了相对模糊的理解。而事实上,大数据远非几种数据分析方法可以涵盖,它的影响力最终会使得软件、硬件、网络、安全等领域发生一场彻底的革命。而现在,这种革命的征兆,已经开始在计算机图书市场上显现出来。
这其中,《大规模分布式存储系统:原理解析与架构实战》是第一个变化征兆。我们在以往的研究中,并没有深入到存储领域。但事实上,海量的数据,一定是以某类格式存储在硬件上的。而为了适应大数据的需求,Google、Amazon、Microsof和阿里巴巴等公司都采用了大规模分布式存储。这样,以讲解大规模分布式存储技术在云计算和大数据领域的实践与应用为主要内容的《大规模分布式存储系统:原理解析与架构实战》成为热门畅销书,也就没有什么奇怪的了。需要注意的是在引入了云存储和大数据这些热门概念之后,流式计算、实时分析、云存诸的安全等问题纷纷被引了出来,而这些问题深究下去,都可以成为一个又一个单独的小专题。这实际上又为更多大数据类图书提供了新的题材。
《海量运维、运营规划之道》是我们找到的第二个惊喜。该书的作者经历了多个海量产品从无到有,从小到大,并且历经数年持续迭代和稳定运行的整个生命周期。我们需要注意的是,此书在成书之前,先是发表在作者的个人博客之上,但让人想不到的是,如此专业的内容竟然吸引了14万的浏览量。这只能说明一个问题:越来越多的人正在经历着自己负责的系统从小到大的成长过程。
《机器学习实战》可以说是我们找到的第三个惊喜。机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。从这个角度来讲,我们甚至于可以说,机器学习,这个小门类的图书正在变得越来越热。
事实上,除了我们以前分析过的大数据图书门类,我们此次还发现了最后一个惊喜,它就是《Excel图表拒绝平庸》,这不仅因为我们采用Excel也可以处理大数据,从而打破了大数据的神秘感,还在于数据经过分析后得出的结论,需要图表这样更为直观的工具进行展示。而各大网络书店的大型排行榜上的数据也印证了我们的观点,多本此类图书正在成为读者追捧的对象。
(胖胖)