首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    中华读书报 2025年03月05日 星期三

    智能飞舟冲破万重山,出版传媒如何乘长风

    《 中华读书报 》( 2025年03月05日   06 版)

      ■李岩(第十四届全国政协委员,国际儒学联合会副会长、中国出版传媒股份有限公司原总经理)

      近一段时间,国内有两大热词成为媒体关注的焦点,一是《哪吒2魔童闹海》突破144亿票房,扬名海外;二是地处杭州的深度求索公司的 DeepSeek大数据模型成为继ChatGPT和Sora之后掀起的又一次科技革命浪潮。特别是后者对我们出版业带来的深刻革命还在影响着我们,并将持续一个时段。如何应对人工智能大数据对科技与文化深度融合的影响? 特别是以内容生产为主体的传媒出版如何破茧而出,谋求更高更快的发展?

      从2022年的ChatGPT,2023年的Sora,再到今年的DeepSeek,每一次科技革命都给我们传统的出版业带来深刻的变化和机遇、挑战,近一段时间,深度求索公司的新突破成为主流媒体热议的话题。我特别赞同周蔚华、于殿利等业界同行积极回应的观点。

      随着以DeepSeek为代表的人工智能大数据模型的普及与广泛应用,人类经历的长时段思考与创作,特别是日常工具性的职业技能与熟练的常规写作会更多地为智能平台所取代,其结果会导致人的创作能力下降,以及所获取的智识结构的转化与弱化(人类获得性知识体系的遗传中,写作与创作技能会随着时间逐步流失乃至丧失),这催使人们应有意识地将智力结构转换升级,投入更高层次的智力创造。而那些低层级的同质化产品可以为民众广泛低廉甚至是无偿地使用。

      在这个迅猛发展变化的时期,出版业应协同法律界,配合主管部门,充分研讨著作权与知识产权的认定、标注,以及如何保护人类作者在作品中所展现的原创性表达。生成式AI创作的作品(或可称“仿人类作品”)很难受到版权保护;人类作者有权对原创性的内容有选择性地发布,并对其中AI辅助创作成果的创造性修改,宣示版权归属。包括连续的、专业性的深层提问,可能包含人类作者的智能创造内容与结构。这些问题,需要业界形成规范性的意见取得共识,并交由法律认定;需要出版从业人员通力合作,形成共识。这是出版业面对文化与科技融合之际,首先要考虑的一个问题。

      其次是很多业界同行深耕出版有年,一直热心拥抱新媒体技术融合,一二十年来也有所斩获。最明显的成就是古联公司开发的大型中华古籍资源库(未来可扩展为中华文化超大型智能基因库),可以说是古籍活化利用的典范,值得让更多民众认知。这是我在本次政协会上关注的重点,即AI、大数据等技术可以大幅度提升古籍整理和文化遗产汇总、梳理、深度开发并转化应用的速率。我们应该减少资源浪费,充分借助已有的研究开发大型语料库的成果,不断转化,为更多普通读者所使用。因此我建议:

      加大对国家层面的中华大型文化基因数据库的扶助支持,解决中国特有的语料应用问题。积极应对ChatGPT和Sora的挑战,特别是DeepSeek系统对大模型数据库的升级功能,强力支持打造大型古籍语料生成系统,形成立足于五千年文明历史积淀的超大型中华文化基因数据库,以应对全球快速发展的人工智能产业给我们带来的强力冲击。从文字到视频影像的生成模式的突破,将带来对人类传统智力成果的颠覆性转换,甚至是创造与创新。在这一方面,中华书局古联公司起步比较早。据了解,中华书局古联公司已开发的近110亿字的古籍数据资源库,为以我国传统文化为主体的超大模型的构建打下了良好的基础。

      古联(北京)数字传媒科技有限公司成立于2015年8月,为中华书局全资子公司。从2005年开始,中华经典古籍库启动建设,依托中华书局百年品牌及权威古籍整理成果,提供高品质古籍整理数字化加工、数据库建设、数字出版平台搭建等数据技术服务及整体解决方案;开展传统文化数字产品研发、推广、运营服务。

      目前,“古联”已开发了《中华经典古籍库》等30多个专业数据库,聚合了20多家出版社的古籍出版资源,与10多位作者签署了数据库创作协议,上线资源总量已超过40亿字,荣获第四届“中国出版政府奖”、中国质量技术奖二等奖等国家级奖项。李长春、刘云山、王沪宁等同志先后高度关注其核心产品的应用。

      在古籍数字化建设中积累的高质量古籍数据资源,根据其内容形成方式,可分为三类。

      其一为古籍整理纸质出版物的数字化,包括中华书局等20多个专业古籍出版社历年出版的古籍整理本、古籍学术著作及相关工具书的高质量的全文结构化数字成果,并形成数据库产品。目前该资源总量已超过40亿字,其中古籍整理本10339种、27.5亿字,古籍普及资源980种、3亿字,学术资源867种、2.8亿字,古籍书目和工具书382种、3.3亿字,近代文献整理出版7.4亿字。另有近代报刊等文献资源18亿字。

      其二为古籍整理成果的数字化出版,即古联公司通过与作者合作,以数字化形式整理并在线出版的古籍数据资源。目前已发布将近20个产品,资源形态丰富。包含石刻资源7万余通,历代登科人物10万余条,木版年画18000余幅,书法作品10000余种,甲骨文卜辞14万余条,及其他专题性典籍资源3亿字。共计5亿余字。

      其三为古籍原典的数字化成果。即通过OCR等古籍数字化技术采集的未经专家整理的古籍数字化资源。目前已积累共计66249种、2229万页、62.5亿字数据,其中50亿字为古籍资源,也包含部分新民主主义革命时期的旧书旧刊。

      去重之后,累计超过110亿字数据资源。

      根据《中国古籍总目》记录,中国古籍约20万种、50多万个版本;根据全国古籍普查登记,现存古籍复本量约270余万部另1.8万函,而且近年来不断有曾经流散海外的古籍回归。大规模优质古籍数字化资源不仅是学术研究、传统文化传播的必需品,也是前沿的大模型技术的基石,语料的数量和质量直接关系到模型性能的优化与提升,而目前已数字化的古籍远远少于存世古籍规模。1949年以来的古籍整理超过4万种,也仅有三分之一完成了数字化,其中绝大部分集中在古联公司。《中国古籍总目》记载的20万种存世古籍也有绝大多数没有进行文本数字化。随着Deep⁃Seek等新技术的发展,对超大规模古籍资源与大模型整合应用的需求日益强烈。

      古籍数字化的未来工作重点将是加速扩大古籍数字化的规模,并与大模型技术进行深度融合。未来用户获取知识的平台将逐步从网站阅读检索转移到大模型问答,传统文化的研究、学习、传播也要紧跟这个发展趋势。通过这些基础性建设,将为大众了解传统文化提供便捷的人机交互接口,为学界提供更好的研究平台,也借助大模型技术快速高效地建立中国特色的AI技术应用体系,更好地将中华优秀传统文化向世界传播,为人类文明夯石筑基,再现中华文明的灿烂辉煌。我以传统文化内容为主体的古籍数字化为例,来说明该领域所开展的工作,已为出版业的未来发展打开了一扇日渐明亮的窗户。我们期待着在科技出版、童书出版领域,可能有更大的突破、更创新的未来。

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有