首页English
  • 时政
  • 国际
  • 时评
  • 理论
  • 文化
  • 科技
  • 教育
  • 经济
  • 生活
  • 法治
  • 军事
  • 卫生
  • 健康
  • 女人
  • 文娱
  • 电视
  • 图片
  • 科普
  • 光明报系
  • 更多>>
  • 报 纸
    杂 志
    中华读书报 2018年10月10日 星期三

    智能时代需要人工智能技术,更离不开大计算的基础设施支撑和大数据的优质高效应用。事实上,当前人工智能还没如我们所想的那么美好且满足人们的新时代需求,问题的关键是需要大数据的更大共享和更多连接,需要大数据为机器学习提供足够完整和精准的训练样本。

    以优质精准的大数据助力人工智能大智慧

    徐云峰 《 中华读书报 》( 2018年10月10日   17 版)

        我国正致力于实现高质量发展,人工智能发展应用将有力提高经济社会发展智能化水平,有效增强公共服务和城市管理能力。9月17日,习近平主席给2018世界人工智能大会发贺信指出,新一代人工智能正在全球范围内蓬勃兴起,为经济社会发展注入了新动能,正在深刻改变人们的生产生活方式。把握好这一发展机遇,处理好人工智能在法律、安全、就业、道德伦理和政府治理等方面提出的新课题,需要各国深化合作、共同探讨。

     

        智能时代需要人工智能技术,更离不开大计算的基础设施支撑和大数据的优质高效应用。事实上,当前人工智能还没如我们所想的那么美好且满足人们的新时代需求,问题的关键是需要大数据的更大共享和更多连接,需要大数据为机器学习提供足够完整和精准的训练样本。就百度研发的无人驾驶汽车来说,无人驾驶需要采集每个路口/路况的信息(路口红绿灯信息、路况人流量、道路车辆等等),当无人驾驶汽车行驶到某个路口的红绿灯的时候,需要根据收集的数据分析是停车还是继续驾驶,现在考虑到的数据更多的是障碍物;但能不能采集路面湿滑、天气变化和风速等复杂信息,增加驾驶智慧,当路面湿滑时,根据采集影响汽车行驶的各方面数据进行分析,汽车应该减速到某个时速,以及捕获前方行人等图像信息的环境因素,“决策”汽车行驶操作,这样才比较安全。另外,高德地图也上线了智慧景区开放平台,成功利用大数据中心、地图管家、全域营销等为游客提供贴心服务,展现人工智能的大智慧。

     

        人工智能需要大数据的支持,目前存在的一个根本问题是,很多人并没有意识到在物理世界中实际操作需要多大的数据。其实这个数据量是在不断增加的,按宾夕法尼亚大学工程系主任维杰·库马尔(Vi⁃jayKumar)的话说是“指数级上升的资料量”。而且系统必须实时提取各方面海量的数据信息,根据底层大数据、人的需求分析,然后编码成逻辑程序,再由系统模拟人的想法“决策”执行。

     

        人工智能需要各方面的大数据来协调统一,在调用的时候可以以很快的速度提取到,同时又要求提取的数据拥有很高的参考价值,即保证提取的数据拥有很高的“质量”,而这又正是大数据所面临的极大的挑战。

     

        那么大数据的“质量”问题又是如何产生的,我们该如何保障大数据的“质量”呢?

     

        首先,我们来看看大数据的“质量”问题是如何产生的:

     

        大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节。其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。

     

        在数据收集环节,需要从不同数据源实时地或及时地收集各种类型数据,并发送给存储系统或数据中间件系统进行后续处理。所以,在数据收集过程中,数据源会对大数据的真实性、完整性、一致性、准确性和安全性产生影响,从而影响数据质量。

     

        在数据预处理环节,主要包括数据清理、数据集成、数据归约与数据转换等内容。数据清理,需要对数据的不一致性进行检测、对杂讯数据进行识别、过滤和修正等。一旦出现问题,就会影响大数据的一致性、准确性、真实性和可用性等方面的质量;数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的资料库、数据立方体等,这一过程如果出现问题,会影响大数据的完整性、一致性、安全性和可用性等方面质量;数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,一般不会出现问题。

     

        在大数据存储环节,不同的存储介质和组织管理形式对应于不同的大数据特征和应用。分散式文件系统,它是大数据领域最基础、最核心的功能组件之一,其关键在于实现分散式存储的高性能、高扩展和高可用性。文档存储,支持对结构化数据的访问,支持嵌套结构、二级索引,以实现数据的高效查询。列式存储可减少数据存取量、提高数据处理效率。键值存储可有效减少读写磁碟的次数,但不提供事务处理机制。图形资料库可实现事物之间相关关系的存储,并使用图模型来映射这些网路关系,实现对真实世界中各种对象的建模存储。内存存储是将资料库的工作版本放在内存中,其设计目标是提高资料库的效率和存储空间的利用率。它们对于提高大数据的时效性、安全性、可用性和准确性等质量维度具有重要影响。

     

        在数据处理与分析环节,大数据的类型和存储形式决定了其所采用的数据处理系统,而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。数据分析是大数据处理与应用的关键环节,它决定了大数据集合的价值性和可用性,以及分析预测结果的准确性。这一环节要选择合适的数据处理系统与分析技术,否则会影响大数据分析结果的可用性、价值性和准确性质量。

     

        数据可视化与应用环节,数据可视化是将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行互动式处理,这一环节,我们需要对结果加以保护。大数据应用是将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,这一环节对于数据质量的影响较小。

     

        以上分析我们可以看出:大数据流程中的前期处理环节对大数据质量的影响较大,尤其是大数据收集和预处理阶段,影响最大。而在大数据质量的各维度中,数据可用性、数据准确性和数据价值性受大数据处理流程的影响较大,这说明通过对大数据流程的管理与控制,可有效保障大数据的可用性、准确性和价值性。

     

        总之,人工智能需要大数据的质量精度、准确分析和可靠结果,只有这样人工智能的智慧才能大幅提升,为人们的生活提供方便,为人类的发展做出贡献。

     

    光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

    光明日报版权所有