谷歌发布最大的任务型对话数据集SGD,促进虚拟助手智能创新发展

  • 时间:
  • 浏览:2

近日,谷歌软件工程师Abhinav Rastogi和工程主管Pranav Khaitan称在谷歌虚拟助转过身,将会引入了新的土法律法律依据,更好地支持新服务。谷歌团队称,目前虚拟助手可帮助用户完成各种各样的任务,包括寻找航班,搜索随近的活动和电影并进行预订,从网上获取信息等等。其他同学 通过为网络上的各种服务提供统一的自然语言界面来提供此功能。

为了适应未来的增长,虚拟助手都要并能轻松支持新服务,并减少维护工作量,而不需要分类分类整理许多数据或重新训练模型。

而像Google Assistant曾经的大型虚拟助手,都要与众多领域中不断增加的小量服务集成在一并,但每段服务都将会具有重叠的功能。你你是什么适应性那些的问提在最新模型中常常被忽略。这在一定程度上是将会过高 大慨的数据集,那些数据集无法与虚拟助手所面对的规模和错综错综复杂相匹配。

在谷歌最近的论文《迈向可扩展的多域对话代理:模式指导的对话数据集》(Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset)中,研究团队引入了两个 多新的数据集SGD(Schema-Guided Dialogue dataset)来处里那些那些的问提。该团队表示,此数据集将会成为有效的测试平台,可用于意图预测,槽位填充,情形跟踪和语言生成以及大型虚拟助手的许多任务。

目前,谷歌已发布SGD数据集,谷歌表示,发布SGD数据集的基本目标是应对许多现有数据集无法充分处里的现实挑战。谷歌研究团队称,SGD数据集是目前公开可用的、最大的任务型对话数据集。

在此之后,9月17日,亚马逊在GitHub上发布了超470万单词21万语录的语料库 , 并声称你你是什么数据集支持“高质量”和“可重复”的对话系统研究,将成为研究界公开可用的最大的基于知识的社交对话数据集 。

SGD数据集由人类和虚拟助手之间超过1100000条的带注释的任务型对话组成。那些对话涉及17个领域。对于大多数领域,数据集所含多个不同的API,其中许多API 具有重叠的功能,但接口不同,这反映了典型的真实场景。SGD是第两个 多所含多个领域并为每个域提供多个API的数据集。此外,为了量化模型对API接口更改或换成新API,评估集还所含了许多训练集这麼的新服务。

目前,利用SGD数据集就还并能训练虚拟助手来支持互联网上各种各样的服务。而为达到你你是什么功能,通用土法律法律依据是都要两个 多master schema,来列出所有受支持的功能及其参数。怎么让,开发出适合所有使用案例的master schema好难。即使开发成功,master schema也会使新的或小型服务的集成错综错综复杂,并会增加维护虚拟助手的工作量。此外,尽管跨服务还并能有许多之类的概念还并能联合建模,之类用于查询或指定电影票、机票或音乐会票数量在逻辑上有之类性,但除非手动定义它们之间的显式映射,怎么让master schema土法律法律依据何必 便于对此类概念进行联合建模。

对此,谷歌团队提出了的新的模式指导土法律法律依据。此土法律法律依据不都要为助手设定master schema。相反,每个服务或API都会提供其模式功能及其相关属性的自然语言描述。怎么让,那些描述会用于学习模式的分布式语义表示,语义表示则会作为对话系统的附加输入。对话系统之后就会被作为不所含域或服务特定参数的单个统一模型。你你是什么统一模型有助在不同服务中之类概念之间的常识表示,而使用模式的分布式表示还并能对训练数据中不指在的新服务进行操作。

目前,谷歌将会将你你是什么土法律法律依据用在了开源对话情形跟踪模型中,该模型在常规设置中仍具有竞争力,且适用于 zero-shot 设置(即这麼针对新服务和API的训练数据)。

“其他同学 认为该数据集将会成为建立大规模对话模型的良好基准,” Rastogi和Khaitan称。“其他同学 期待研究界将其用于对话技术的发展创新。”

参考链接:https://ai.googleblog.com/

论文链接:https://arxiv.org/pdf/1909.05855.pdf

进入“通信”首页,浏览更多精彩内容 >>