大数据这两年一直是热词,但所谓大数据,并非越大越有价值。
比如,在美国抽取一个1000人的抽样调查。这个调查若是同样在中国做,要达到同样精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍多一点。只有10%以下的人说出正确答案——只需抽样1000人,而绝大多数人认为抽样数必须大于4000。
为什么呢?最简单的比喻是:喝汤时,要确定汤的咸淡,大多数人只需要品几口,并不需要把汤全部喝完。这个判断的准确性取决于什么?这碗汤的均匀度。喝汤前把整碗汤搅拌一下,然后品尝几口,这就是我们所说的随机取样。无论是一小碗汤还是一大桶汤,只要搅拌均匀,尝几小口就够了。同样,去医院验血时,不论胖瘦、小孩大人,都只抽一点点就可以做出判断。这意味着抽样调查需要有一定的样本,但是一旦超过临界点以后,和母体大小的关系是完全可以忽略的。
大数据并非数据越多结果越可靠。以现在最热的个性化治疗为例。如果一个药对95%的人有效,但对我没有用,那显然这个95%的数字对我毫无意义。
一个真实的例子是,在20世纪80年代,英国有一本杂志登了两种治疗肾结石的方法。文章摘要宣称方法A治疗肾结石,成功率是78%;用方案B的话,成功率是83%。在没有其他信息的情况下,任何人都会认为B方案治疗效果更好。但是仔细阅读那篇文章,你会发现当研究人员把病人分成大结石和小结石两组时,方案A比方案B在每组里的成功率都要高。
(《文汇报》9.11 孟晓犁)