当智能音箱中的“小爱”、“小度”回应你时,它是否理解你说的意思?如何判断人工智能助手是否聪明、好用?这些声音背后究竟是什么技术在支撑?

1950年,英国计算机科学家阿兰·图灵提出著名的思想实验——图灵测试,预言了创造出具有真正智能的机器的可能性,成为随后半个多世纪科学家们用来判断机器是否能够思考的重要标准。

图灵测试的核心,是考察目标的自然语言处理能力,如果说自然语言处理是人工智能“皇冠上的明珠”,那么AI对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”,是支撑起无数的“小爱”、“小度”、Siri等语音助手背后的基础以及核心。

然而,作为前沿技术,当前学术界与产业界并未对AI对话系统形成标准认同,这造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

在人工智能专家Sandeep Rajani教授所著《人工智能:人或机器》一书中,作者将人工智能水平和人类能力进行横向对比,划分成四个不同等级:巅峰级(已经实现了人类无法超越的最优能力)、超越人类级(比所有人类的能力都强)、强人类级(比大多数人类的能力强)、弱人类级(比大多数人类的能力弱)。尽管此标准对人工智能做出基本分类,但如此划分面对不同领域的人工智能现状却存在一定难题。

以五子棋为例,在规则完备、策略空间较小的五子棋游戏中,人工智能已经可以穷举所有可能的对弈情况,确保与人类在任意对弈的情况下都能实现最优方案,这种场景下其能力达到了巅峰级;但当我们将人工智能技术放在驾驶汽车上,它的能力还不足以满足所有复杂的路况和交通问题,呈现出弱人类级表现。

因此,在科学家未能实现通用的巅峰级人工智能之前,有必要对细分领域人工智能进行进一步分级定义,例如众所周知的自动驾驶等级划分,便是由国际汽车工程师协会制定的自动驾驶分类标准,但在AI对话系统领域,其分级定义始终是一片空白。

6月28日,清华大学智能技术系统实验室副主任黄民烈教授联合华为诺亚方舟实验室、百度、小米、科大讯飞等二十多家企业、科研机构的科学家共同制定了全球首个《AI对话系统分级定义》(以下简称《分级定义》),通过对AI对话系统进行更加科学的分类,为业界衡量AI对话系统的能力水平,促进AI对话系统的进一步研究,同时为工业界应用提供参考,此次对AI系统的分级定义,或将进一步助推国内人工智能产业快速发展,并为技术发展明确未来方向。

AI对话系统分级定义,行业发展“里程碑”

《AI对话系统分级定义》首次明确指出,AI对话系统可以按照场景、对话轮次、信息量、拟人化等标准,划分为L0-L5六个等级:
在这里插入图片描述

  • L0:实际对话由人给出,系统完全没有自动对话能力;或者在任意单一场景中,系统均无法给出较高质量的对话。
  • L1:能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖。
  • L2:在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。
  • L3:在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。
  • L4:在L3的基础上,在新场景上具有高质量兑换能力,在多轮交互中拟人化(指人设、人格、情感、观点等多维度的一致性)程度较高。
  • L5:在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知和表达能力。

对于此《分级定义》的制定规则,清华大学智能技术系统实验室副主任黄民烈教授指出,考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,因此撰写时,研究小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。

在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。
在此《分级定义》的标准之下,当前AI对话系统水平最高已发展至L2—L3之间。小米技术委员会主任、AI实验室主任王斌教授指出,以“小爱同学”举例,不但在单一场景可以完成高质量,多个场景对话也能完成,已具备一定的跨场景的能力,而有了《分级定义》指导,将继续在跨场景对话技术上发力,在新场景里做小样本的学习让“小爱同学”适应新的场景的工作。在以智能手机为载体的智能语音助手中,“小爱同学”、三星Bixby、百度小度、华为小艺等语音助手如今已经处于L2—L3等级定义下,并正在朝L4等级进发。

围绕此次共同探索出的AI对话系统分级定义,研究小组已制定出标准的数据集,并将推动其成为行业认可的标准规范,“就像亚马逊的大奖赛一样,制定一套框架,一套数据,一套测试方法,把这个标准推进下去。”黄民烈教授提到,此次参与《分级定义》的二十多个机构多位科学家和研究者,将进一步撰写详细的白皮书,确定L4、L5等级之下的技术细节。

AI人机对话系统不但伴随人工智能技术发展较长时间,技术积累多,并且已在智能客服、语音助手等行业进入到商用阶段,在心理健康服务等领域也将进入商用阶段。从行业发展方式来看,自动驾驶技术的等级划分可以带来启发,由于自动驾驶技术牵涉的厂家众多,商用前景广阔,因此由国际汽车工程学会确定了不同等级标准,背后实际上也是行业技术先进企业的联合探索和标准共识,此次《分级定义》也体现出这一特点,而正如自动驾驶技术等级划分助推汽车产业一般,《分级定义》对推动AI对话相关产业具有“里程碑”式重要意义。

把握行业脉搏,助推社会认知AI对话价值

近年来,随着国内深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,因此,对于《分级定义》将如何指导人工智能产业发展、实现智能化价值最大化,也是AI从业者与研究者最为关心的话题。
在这里插入图片描述

华为诺亚方舟语音语义首席科学家、ACL Fellow刘群教授指出,尽管AI行业现在水平已经能接近L3阶段,但对话系统依然存在很大的提升空间,《分级定义》有助于学界明确研究方向,他提到:“对话系统最难的是共识的建模。早期在很小的场景下,比如订飞机票,在这个上面很容易建立共识,但在开放领域这种共识就很难,特别是复杂的业务场景中,比如手机坏了,哪里坏了,哪个应用打不开,界面上有一个什么元素我点击它不反应,这个时候让机器完全理解就非常困难。对于复杂场景的建模,是难点之一。还有AI人设前后一致性问题,AI伦理问题等难点问题。”但他也提出,系统需要根据场景和目的确定自己是否需要达到更高等级,并不一定追求级别越高越好。

北京师范大学新闻传播学院院长张洪忠教授指出,《分级定义》有利于行业形成共识甚至推动相关标准建立,他表示:“分级以后,我们能够明确AI对话系统相关领域发展到了哪一个层级和对社会的影响,为主管部门提供很好的学术参考,更易于把握人工智能技术发展现状。也有助于推动社会对相关技术的伦理和法规讨论。”黄民烈教授认为,随着《分级定义》的发布,以及未来具有更明确技术说明的白皮书的推出,AI对话系统技术将有更明确的考量准则,他指出:“什么叫高质量,较高质量,什么叫低质量,都有明确定义。高质量是说相关性、信息量、自然度分数可以达到8-10分,满分是10分,较高质量就是6-8分,低质量就是小于6分,这是我们的界定。这三个维度什么意思呢?相关性是说你回复的内容跟上面的有适度的匹配;信息量是回复提供足够必要的信息,要有信息量,不是说‘我不知道’,‘好的’,‘我知道了’,类似这种没有任何信息量;还有自然度是说跟人相比的自然度,它的语法是不是通顺,是否包含常识错误。三个维度怎么去测?指标一定要可观察、可测试、可度量,我们希望通过一定数量的测试者和这个对话系统进行充分的对话交互,测试之前我们测试者被告知说这个系统能力范围,但怎么实现不告诉他,这是准黑箱的操作,也不是纯黑箱。最后由这个测试者从几个维度对它进行主观打分,最后给出测试的指标,很像AlexaPrize亚马逊大奖赛评价的方法。”

实际上,我们将看到,随着《分级定义》的公布,将帮助研发人员树立正确的努力方向,从而正视当前研发的对话水平;同时,也能为行业提供相对统一的评估规范,帮助更多企业做好评测标准,助推行业发展;而在大众层面,此次《分级定义》将让更多普通用户了解对话系统,如同自动驾驶技术分级定义一样,当更多人关注和了解AI人机对话技术的发展,也将推动AI人机对话走向社会,增强人们在相关领域的认知并消除信息差。

AI对话分级定义明确,谁将率先跑出L5?

伴随人工智能技术的不断发展,机器学习、计算机视觉、自然语言处理、语音处理、知识图谱等AI核心技术相关算法持续迭代和优化,在数据、算力等“AI基础设施”的持续增长下,AI人机对话市场规模持续扩大。根据Deloitte报告预测,全球人工智能产业规模从2017年的6,900亿美元增长至2025年的64,000亿美元,2017-2025年复合增长率32.10%,呈现较快增长走势。中国人工智能市场规模从2016年的154亿元增长至2020年的1280亿元,预计2022年将达2729亿元。

然而,人工智能产业发展方向也愈发多样化,市场竞争中不但存在“技术水平难以判断”“AI企业夸大宣传”等问题,面向不同领域的AI技术如何发展也存在差异。例如在国内,智能手机上的虚拟助手“小爱同学”、“小度”、“天猫精灵”等不仅要解决天气、日程、快递等查询,还要与IoT设备融合,为智能家居设备承担语音控制中心的任务,这就要着重发展AI对话系统融合IoT技术;再比如心理健康领域,无论海外的Woebot还是国内的聆心智能情绪聊天机器人,不仅需要通过对话确认用户的心理健康状况,还需要通过共情、引导、心理测试等方式提供一定的治疗效果,实现“数字药”的目标,这意味着AI对话系统需要学会和使用CBT(认知行为疗法)、DBT(辩证行为疗法)、IPT(人际关系疗法)、正念等多种治疗理念和技术方法。

但在解决了上述的特定场景与AI对话系统融合问题之后,如何推动国内AI企业走向L4甚至L5?《分级定义》在明确AI人机对话系统现状、行业方向的同时,对未来也提出了明确的要求,这在一定程度上为行业去芜存菁,实现最终的L5目标做出了指导。

黄民烈教授提到:“L4是在L3的基础上,新场景上具有较高质量的对话能力,并且在多轮交互里面拟人化的程度比较高,这里面的拟人化程度是指我有没有一个固定的人设和人格,有没有固定的情感的情绪的处理能力,有没有这种观点维度的能力,好比我们跟一个人聊天,不会一会是男的,一会是女的,不可能一会儿在清华上学,一会儿在北大上学,一定有自己固定的人设信息,这种人设信息目前在对话系统里面处理还是非常之难。”实际上,立AI人设的研究也是行业研究中的热点及难点,无论是对AI语音助手领域的小米“小爱同学”、百度“小度”、华为“小艺”还是对AI心理健康领域的聆心智能、Woebot等系统来说,挖掘这一领域的潜在价值在于让AI成为更“人格化”的系统,而在这之后,更高级的L5才有可能实现。

参与《分级定义》的刘群教授指出,L4、L5等级的AI对话系统“必须具备复杂场景的深度建模”,黄民烈教授也提到,L5等级应在L4基础上,有更高的拟人化程度,能够自动、主动、持续学习的AI人机对话系统,必须具备多模态的感知和表达能力。

如何率先跑出这些能力?从目前来看,AI“产研结合”是必要途径,来自尚普咨询《2022年AI 2000全球前20强机构》数据显示,全球前20强AI领域机构中有12家为高校,而在产业化落地过程中,大量公司结合不同的应用场景推出了自己的智能对话产品,比如清华大学孵化的聆心智能、百度、阿里、腾讯、谷歌、Meta、亚马逊等等。此外,中美之间的AI人机对话系统也存在语言系统的差异,由于英文的AI相关技术研究在开源文化理念上做的更好,也更容易获取到高质量的数据,国内要率先跑出更高级别的AI人机对话系统,也离不开业界的社区建设和人才体系的进一步完善。可见,并非某个企业及科研机构能够独立完成的事情,要率先跑出L5,需要集合更多力量,而在此次《AI对话系统分级定义》背后,我们能够看到这种力量正在生长。

参与本次《分级定义》的研究机构和研究者包括(以姓氏拼音排序),科大讯飞AI研究院副院长陈志刚,京东集团副总裁、IEEE
Fellow何晓冬,清华大学长聘副教授黄民烈,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL
Fellow刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯AI Lab总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。

Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐