首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    中华读书报 2025年12月10日 星期三

    南腔北调(213)

    科学的最新成果正在损害科学的已有声誉?

    江晓原 刘兵 《 中华读书报 》( 2025年12月10日   16 版)

        《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯著,孙强译,上海科技教育出版社2025年8月第一版,88.00元

        特约主持江晓原

        中华读书报  

        上海科技教育出版社

        合办

        江:这次我们要谈一本书名非常大胆的书——《不被信任的科学》,这样的书名很容易让人以为是西方“反科学主义”的老生常谈,其实却并非如此。

        本书主要是揭露现今一些以“科学”的名义进行的“高科技”活动,而这些活动正在严重败坏科学的声誉,导致人们失去对科学的信任。作者在本书中致力揭露三件事请:虚假信息、数据歪曲、数据挖掘。

        “虚假信息”比较容易理解,就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。许多人根本不知道区块链是什么东西,只觉得它非常“科学”,所以高大上,和它绑在一起的比特币肯定前程远大。而作者认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者加里·史密斯(Gary Smith)的看法,他是耶鲁的经济学博士、大学的经济学教授,被视为经济学家。不过我们当然不打算在这里讨论比特币的成败,如果比特币真的前程远大,那也不过是史密斯举例不当而已,并不影响他对“虚假信息”的批判。

        “数据歪曲”主要是指对数据进行错误的解读,这也是我们所熟悉的:表面看起来也很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。我的判断同上,不管比特币将来如何,史密斯对“数据歪曲”的批判从学理上来说仍是成立的。

        对中国读者来说最容易困惑的,是“数据挖掘”——作者在第165页上说“又名机器学习或知识发现”——这三个名词在中文语境中都不具有任何批判色彩,或者说都是“好词”。但却是史密斯最为痛恨、批判最力的对象。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“算法”,可以获取各种各样的数据关系,而这些数据关系很可能毫无意义,甚至具有欺骗性。

        刘:

        这确实是一本很有意思的书。不过,书名与书的内容略有不符。书名“不被信任的科学”中的“科学”,还不能理解为普遍意义上整体的科学。书中的内容,就像你刚刚总结的那样,本身都很值得讨论,这些讨论也很有现实意义,但它们更多关联到的,却是你近来经常愿意说的更靠近应用的“技术”,而不是那种更基础的科学研究。

        但也正因为这些技术手段的发明,以及它们的普遍应用,反而使其对人们的生活产生了更直接的影响,因而使这本书让人读起来很有共鸣。当然,如果读者再更有些学术背景,对于“数据挖掘”在其工作和研究中有所接触,那种触动感也就更加鲜明了。

        我们就先来说说你认为可能“对中国读者来说最容易困惑的”“数据挖掘”吧。我相信,在近年计算机技术和大数据普及的情况下,大量学者,无论是理科的还是文科的,都会在其研究中对之有所接触。这其实涉及在大数据背景下,人们对于以“数据挖掘”的方式得出的对“规律”的发现、对于这些被发现的规律的可靠性的信任或怀疑等重要问题。而且,除专业的研究者之外,这些发现在通过媒体在社会上传播之后,对大众也会有是否应该相信的问题。此书这部分内容的核心要点,恰恰就是以各种实例揭示了这样的“发现”的不靠谱,展示了基于大数据的许多研究方法,其实也远非像人们通常会想象的那样“科学”。

        其实“数据挖掘”这个事情,也未必像史密斯说的那样十恶不赦,因为在许多情况下它确实是正常的科学研究手段。

        我曾在中国科学院上海天文台工作过15年,我们天文学界有一种“星历表”,就是用现代天体力学计算出来的太阳系中各大行星、矮行星等天体每隔一段时间(步长)的天球坐标(黄经黄纬),你完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(算法),在其中“挖掘”出各种各样的结果,你既可以找出公元前1044年1月9日清晨牧野之战时木星在天球上的位置,也可以找出月球黄纬和水星大距之间的对应关系——如果你觉得这种关系有意义的话——这个例子已经和史密斯书中所举的中国茶叶分销商股价与特朗普推文中使用单词with频率的对应关系异曲同工了。

        也就是说,“数据挖掘”从最初的定义和操作来说,与正常的、合理的数据分析处理之间,并无不可逾越的鸿沟。这种技术在互联网和人工智能出现之前早就存在。史密斯所深恶痛绝的,其实是“数据挖掘”在当下的滥用。

        那么“数据挖掘”为何在今天可以被滥用? 这就是拜人工智能所赐了。20世纪80年代我刚进天文台时,星历表还是非常厚的纸质大书,里面用很小的字密密麻麻印着数据,那时如果要“挖掘”,就只能用肉眼在里面寻找数据(还要再用内插法处理),在这样的情形中几乎不可能发生滥用。但十年后我们就开始使用NASA喷气推进实验室提供的星历表数字光盘了,这时实际上采用计算机和算法从星历表中“挖掘”数据已经成为可能,不过我倒尚未听说天文学家搞过什么滥用。

        刘:

        说到“数据挖掘”,其实书中所举的例子,大多还是在社会现象的领域。如今,我们也确实在学术界对于社会问题的研究中,看到各色基于“数据挖掘”而进行的工作。当然,在像你所说的天文学家,或者说是其他自然科学家,在工作中与数据打交道,试图发现其中隐藏的“规律”,这本来就是他们日常工作的重要内容,不过这些数据中被“挖掘”出来的规律,是否就是自然界中真正的因果规律,或者像人们所说的巧合或“相关性”或其他什么关系,这才是带来争议的重要背景。

        重要的是如何理解所发现的“规律”。著名的前苏联物理学家朗道曾说过,用参数调整甚至可以让曲线呈现出大象的形状,与此也有相似之处吧。由于社会现象更超越于自然现象的复杂,对众多基于大数据“挖掘”所发现的“规律”轻易认可,并当作因果性的联系,这也许才是最典型的“滥用”吧。

        史密斯在书中说道:“数据挖掘助长并唆使了对科学信誉的侵蚀,因为在大型数据库中可以发现几乎无数的巧合序列”,过于轻信这样的发现显然是不对的,但若要说到“对科学信誉的侵蚀”,未免也有些夸大。因为根源还在于,是否就把这样的研究方法认可为“科学研究”的方法,以及使用这样的方法进行的活动就属于“科学”?

        其实,现在如此热门的“大数据”究竟给历史研究带来了什么新的争议与挑战,也是很值得思考的问题,因为这影响到我们对于“大数据”意义和价值的认可。

        江:

        史密斯虽然没有从科学哲学的角度去讨论问题(也许他缺乏这方面的背景),但他对“数据挖掘”的强烈批判,至少在客观效果上还是很容易将问题引向更为深入的层面。

        例如,既然正常的数据分析和史密斯批判的“数据挖掘”之间并无不可逾越的鸿沟,我们就可以从这一点出发进行思考。

        史密斯所举的一些“数据挖掘”的例子,看上去当然是荒谬的——史密斯相信他的大部分读者也会感觉是荒谬的,比如中国茶叶分销商股价与特朗普推文中使用单词with频率的对应关系。但是,“荒谬”和“不荒谬”的界限在哪里呢? 或者说,如何判断被“挖掘”出来的一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢? 月球黄纬和水星大距的关系会不会听起来十分“科学”(实际上是我信口杜撰的)?

        史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”

        所有这些说法,归纳起来就是一个意思:传统的数据处理有理论指导和预期,数据挖掘则是信马由缰乱挖一气,希望能挖出点意想不到的东西来。而史密斯毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道”。

        刘:

        在传统的科学哲学中,有所谓“观察渗透”理论。这里的观察与“数据挖掘”应该没有本质区别。一些著名物理学家也有过类似论述,即理论决定了你能看到什么。而史密斯对“数据挖掘”的定义,刚好与此相反。

        这里涉及的第一个问题,就是如果不知道要发现什么,又如何会发现呢? 其实,“数据挖掘”的发现之所以会被重视,也只能是因为觉得它们有意义,这样的意义,也无非是在与已知理论一致或不一致的前提下才能成立。

        于是,认可或不认可某种在“数据挖掘”中的发现,显然就与人们在“挖掘”之前相信的理论有关。例如,你刚刚信口杜撰了“月球黄纬和水星大距的关系”,万一它在星象学或星命术中有意义呢? 而是否相信这样的学说,显然又取决于对这样的相关性是否属于因果性的理论认知了。不过由于因果性的确定非常复杂,使得这样的讨论更加复杂和不确定。

        江:

        对“数据挖掘”的质疑,很容易引导到人类社会运行规律的客观性问题上去。史密斯并未就这个问题表明立场,但是他既然断定“由数据挖掘所发现的大多数模式都是胡说八道”,那么他心目中那些不是胡说八道的模式,总该至少有着某种程度的客观性吧? 从他对虚假信息、数据歪曲、数据挖掘的批评来看,他似乎是相信存在这种客观性的——尽管他未必清楚意识到,要从哲学上为这种客观性辩护,其实是极为困难的。

        不过,史密斯认为“数据挖掘”的滥用正在损害科学的声誉,这一点我还是赞成的。事实上,史密斯用朴素的想法,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能)正在损害科学技术已有的声誉,使得科学正在不被信任。

        刘:

        虽然我前面的讨论涉及哲学,但具体到书中对滥用“数据挖掘”的批评,我也是认可和赞同的。此外,史密斯在书中关于我们几乎还没有来得及讨论的人工智能的观点,与当下对人工智能过于夸张的重视和强调也很不一致,对此我也很赞同。虽然这只涉及有限的科学领域,以及在信息科学领域里的研究方法,其不当是否会扩大到对作为整体的科学之声誉的损害,也还可以再讨论,但至少对于当下最热门的这几个具体领域存在的问题,此书确实做出了绝不跟风且更让人冷静思考的有益评判。

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有