这个设备让你不用说话也能和电脑交流

2018年4月15日

我们的影响力

世界经济论坛为 加速人工智能与机器人行动做了什么？

全局信息

探索和追踪解决之道人工智能与机器人正在影响经济、产业和全球问题

A hand holding a looking glass by a lake

众源式创新

现在加入，用我们的数字众源平台来实现大规模的影响力

实时追踪：

人工智能与机器人

麻省理工学院的研究人员开发出一种计算机界面，这个界面可以录入用户通过口头表达但实际上没有大声朗读出来的单词。

该系统由一个可穿戴设备和与之相连的计算机系统组成。设备中的电极会捕捉下颌和面部的神经肌肉信号，而肉眼无法看见的这些信号是 “在脑海中表达言语”时所触发的。信号被传输至机器学习系统，而该机器学习系统在训练中已经将特定信号与特定词汇进行关联。

该装置还包括一对骨传导头戴式耳机，将振动通过脸部的骨骼传递到内耳。由于这并不会阻塞耳道，因此这种耳机可以使系统在不中断对话或以其他方式干扰用户听觉体验的情况下向用户传导信息。

AlterEgo的工作方式

Image: Kapur et al

因此该设备成为完整的静音计算系统中的一部分，这个系统可以使用户以不易察觉的方式提出和接受高难度计算问题的答案。例如，在研究人员的一项实验中，受试者使用该系统在国际象棋对弈中无声地向系统报告对手的招式，并同样在无声中接受计算机的应答。

“这样做的目的是建立一个IA（智能增强）设备，” 领导这个新系统开发的麻省理工学院媒体实验室的研究生Arnav Kapur说，“我们的想法是：我们能否建立一个与内部结合更紧密的计算平台使其在某些方面把人和计算机融合起来并且使用时感觉像是我们自身认知的内部扩展？”

“我们基本上离不开手机和数字设备，”他的论文导师、媒体艺术和科学教授Pattie Maes表示， “但目前，这些设备的使用非常具有破坏性。如果我想要查看与正在进行的对话相关的事情，我必须找到我的手机、输入密码并打开一个应用来输入一些搜索关键字，整个事情要求我完全将注意力从周围的环境、周围的人中转移到手机上。所以我和我的学生长期以来一直在尝试利用新的外形因素和体验类型，从而人们在从这些设备提供的无数知识和服务中获益的同时也可以让使注意力保持在当下所做的事情上。“

研究人员在计算机协会ACM智能用户界面会议上展示的论文中描述了他们的设备。 Kapur是论文的第一作者，Maes是资深作者，电气工程和计算机科学专业的本科生Shreyas Kapur也参与了他们的工作。

微妙的信号

自19世纪以来，一直有观点认为内部言语表达与身体存在关联，并在20世纪50年代有人进行了认真的调查。20世纪60年代速读运动的目标之一就是消除内部的言语表达，或者称之为“默读”。

但是，人们对于将默读作为计算机接口还缺乏很多探索。研究人员的首先需要确定面部哪些位置是最可靠的神经肌肉信号来源，因此他们进行了一些实验。在实验中，受试者需要默读四次同样的单词，同时每次有16个电极在他们面部的不同位置。

研究人员编写代码来分析了得到的数据，发现有七个特定电极位置的信号始终能够区分默读出来的词。研究人员在论文中将一种可穿戴无声语音界面的原型写入报告，这种界面像电话耳机一样缠绕在脖子后部，并且具有触手状弯曲的附件可以沿着下颌在脸颊任一侧通过七个位点接触面部。

但是在最近的实验中，研究人员使用下颌上只有四个电极的方法获得了类似的结果，这可能会使这类可穿戴设备不那么突兀。

一旦研究者选定了电极位置他们就开始收集数据，数据的内容包括对于有限词汇表的计算任务，每个词表约有20个词。任务的一类是算术运算，用户默读数值较大的加法或乘法运算；而另一类是国际象棋应用程序，用户使用标准的国际象棋编号系统报告棋子的移动。

然后，对于每个应用程序研究者都使用神经网络来找到特定神经肌肉信号和特定词之间的相关性。和大多数神经网络一样，研究人员使用的网络被安排成简单处理节点的层次，每个层次都连接到相邻上下层中的几个节点。数据被送入底层，底层节点进行处理并把这些数据传递给下一层，下一层的节点进行处理后继续传递，依此类推，最终层次的输出是一些分类任务的结果。

研究人员是系统基本配置包括一个得到训练从而通过神经肌肉信号来识别默读词语的神经网络，但这个神经网络也可以通过只重新训练最后两层为特定用户定制。

实际问题

研究人员利用可穿戴接口的原型进行了一项可用性研究，其中10名受试者使用大约15分钟时间将算术的应用定制为他们自己的神经生理特征，然后在90分钟之内将其用于执行计算。在该研究中，该系统进行转换的平均准确率约为92％。

但是Kapur表示，系统的性能会随着更多训练数据量的增大而提升，而这些训练数据可以在日常使用中收集。尽管他并没有给出具体数字，但他估计训练得更完善的系统达到的准确率会高于可用性研究报告的准确率得到的数值。

在目前正在进行的工作中，研究人员正在收集大量关于更复杂对话的数据用于通过范围更广的词汇来构建应用程序。 “我们正在收集数据，并且结果看起来不错，” Kapur说，“我认为我们未来有一天会实现完全的人机对话。”

“我认为他们低估了在我看来这项工作真正的潜力。” 乔治亚理工学院计算学院教授Thad Starner表示，“比如说在亚特兰大的哈茨菲尔德机场的飞机停机坪上控制飞机，你被喷气噪音所围绕的时候需要戴着很大的隔音耳塞，在这样的环境中很难通过声音去交流，那么使用这种技术是很好吗？你可以想想所有高噪音的环境，例如航空母舰的驾驶舱或者发电厂、印刷厂这类有很多机器的地方。这是一个很有意义的系统，尤其是对于在这些场所通常会穿着防护装备的人。例如你是一名战斗机飞行员或者是一名消防员，那么你肯定需要戴着防护的头盔。“

“另一类非常有效的应用是用于特战部队，”Starner补充道。 “很多场景不是一个嘈杂的环境而是一个无声的环境。很多情况下特战队员都有手势，但是你可能无法看到每个手势。这些人之间通过无声的言语来沟通不是很好吗？另外还有无法发声的残疾人。例如，Roger Ebert由于失去了下颌无法说话。他可以通过这个系统进行无声的演讲然后有一个合成器来读出这些言语吗？“

作者Larry Hardesty，麻省理工大学新闻办公室计算机科学作者

以上内容仅代表作者个人观点。

本文由世界经济论坛博客与MIT News联合发表，转载请注明来源并附上原文链接。

翻译：徐嘉莹

责编：张智

世界经济论坛博客是一个独立且中立的平台,旨在集合各方观点讨论全球、区域及行业性重要话题。