学术前沿 | 多模态机器人行为对社会智力的影响

社交机器人以多模态方式运行：它们可以使用各种功能性手势，进行社交导航，甚至可以观察对话中的不同意图，同时计算和展示与之交互的人类相关的每种行为。那么，构成机器人行为的这些模式如何在交互过程中影响人类自己的行为呢？

Karen Tatarian 是一名机器人工程师和研究员，近期以优异的表现通过了 Sorbonne University 的博士学位答辩，获得了机器人和人工智能博士学位。

随着人工智能技术和机器人领域的快速发展，Karen一直在努力让以人为本的社交智能机器人和产品成为现实。

近日，Karen 在《Computer Vision News》上发表的一篇名为《How does Modality Matter? Investigating the Synthesis and Effects of Multi-modal Robot Behavior on Social Intelligence》的论文研究了 Pepper 对社会智能的影响。

该论文数据收集涉及115名参与者，每人与自主机器人平均交互7分钟。并且作者已将代码开源，链接如下：https://github.com/KarenTatarian/multimodal_socialcues

模态发挥着怎样的作用？

——研究多模态机器人行为对社会智能的影响

综述

通过观察人类，我们发现社会交往需要一定的暗示，这能让他人理解我们的行为并推测我们的目的。这些有效的社交信号以及非语言行为是复杂且多方式的，这意味着它们由不同的模式和暗示组合而成，诸如手势、凝视行为和空间行为（例如空间和环境的管理）。因此，一个被认可具有社交智能的机器人，必须能够成功地进行社会交流，适应社交环境并且展示出恰当的多模态行为。

在本论文中，笔者首先研究了这些模块是如何帮助其他模块进行调整的；接着探索多模块执行时，模块对于行为交互成果以及机器人的社交智慧感知的效果；最后展示一个使用强化学习原理制作的建模。该建模有利于机器人学习如何在人类互动中产生的多模块社交信号的基础上，将多模块行为与奖励功能结合在一起。

一、将人类行为用于机器人对集体环境的适应
模块在自然情况下是组合出现的，如果想要让它适应环境变化就需要依赖其他感官模块。例如，笔者的首篇论文提到，机器人会主动根据社会互动的变化（即它周边形成的群体）而改变注视模式。空间行为学的运用是为了估测机器人周围的参与者在群组形成过程中所扮演的角色，例如主动发言者、旁观者或旁听者（图1）。与根据新的感官检测切换凝视注意力的机器人相比得出的实验结果显示，参与者站得离适应能力很强的机器人 Pepper 越近，给出的适应性和社交性评分就更高，同时参与者还会感觉到 Pepper 在关心他们。

图1：关于机器人与参与者之间的两组交互，不同状态代表在不同背景和时间下交互过程中每个参与者的角色

二、理解机器人多模态行为带来的效果
多模态行为由凝视机制组成，包括：通过社交导航实现转向、让步、抓地和共同注意力等动作；社交手势（象征、指示和节拍手势）；自动进行社交对话，并在各种情况下提取一种模式；通过研究行为结果和主观测量的方式来进行研究。

该系统的简要流程如图2 所示，具体代码可在 github/KarenTatarian 上获取。实验收集了105 名参与者的数据，他们分别单独与机器人进行了 7 分钟的互动来调查行为结果，行为结果包括但不限于用户的距离、说话时间、进行的问候以及对问候的回应。该研究能够显示，机器人多模态行为中的每种模态在多大程度上影响人类站立的距离、参与者如何称呼机器人、参与者是否接受来自机器人的建议，以及他们如何通过模仿机器人的非语言行为来开始和结束交互。

图2：时间线图例，包括语言，凝视机制（转向、抓地、让步），以及社交手势（指示手势：“你” vs “我”如果在演讲中提及，节拍手势：强调用户需要从中选择的两个选项）

三、人机交互 (HRI) 的适应与个性化

用户希望与之交互的媒介、机器人和技术也能适应用户自身，因为这会反过来提高它们的可用性。在人机交互中，有适应能力的系统不一定会让媒介学习新行为，而是会通过组合不同的行为来决定适应什么，以及判断何时进行这些调整。机器学习可以解决在人机交互中实现自适应的难题，同时它可以充当机器人评估其行为的一种方式。然而，笔者提到过，人类行为和社会信号本质上是复杂的、动态的和连续的。试图离散它们会导致大规模的状态空间和信息丢失。此外，为实现人机交互而训练机器学习模型会带来的问题是成本高昂，新冠疫情也证明了，它有时非常具有挑战性。
为了回答后一个问题，笔者使用了之前工作中收集的丰富数据，为人机互动构建了一个模拟设置和环境，以针对此类用例训练机器学习模型。此外，为了使用机器学习解决适应问题，笔者研究了如何使用人类的多模态社会信号来制定奖励信号，后来它被用来调整机器人的多模态行为，创造出各种由凝视、手势、近义词和情感表达组成的组合，目的在于提高机器人的社交智能和影响力。此奖励功能旨在反映人机交互的复杂性和动态性。实验结果帮助我们进一步研究媒介将选择哪些构成机器人行为的模态组合。这些发现对于推动未来技术的社会智能方面十分重要，这样机器人才能适应人类，向人类学习并且在比语言更高级的层面上与人类交流。