人工智能耳机解决嘈杂的变焦通话

人工智能、网络技巧和定制硬件的巧妙结合消除了背景噪音

4分钟读取
一幅两只手的画。其中一人手持Clearbuds耳塞,这是首批可在智能手机上实时运行的机器学习系统之一。另一只手拿着显示ClearBuds应用程序的智能手机。

华盛顿大学的研究人员发明了一种名为ClearBuds的耳塞,可以提高说话者的声音,减少背景噪音。ClearBuds应用程序和耳塞使用了一种新颖的麦克风系统,构成了首批在智能手机上实时运行的机器学习系统之一。

Raymond Smith/华盛顿大学

没有什么比一个团队成员坚持在嘈杂的咖啡馆里拨号更能破坏Zoom会议的气氛了。一款名为ClearBuds的新型人工智能无线耳机有望解决这一问题,它能屏蔽背景噪音,并确保麦克风只接收呼叫者的声音。

语音增强技术已经应用于各种产品,包括助听器、Zoom和谷歌Meet等远程会议服务,以及苹果AirPods Pro等无线耳机。其目标是去除传入音频中不必要的噪音或失真,提高说话者声音的清晰度信号处理算法或更新机器学习方法。

它们通过利用空间线索来帮助区分音源或声学信息,从而区分不同种类的噪音,如讲话或交通声音。但是同时做到这两点,并且计算预算小到足以在消费级设备上运行,这是一个重大的挑战,大多数现实世界的系统仍然有很多需要改进的地方。

华盛顿大学的一个团队巧妙地结合了定制的入耳式无线耳机、定制的蓝牙协议和可以在智能手机上运行的轻量级深度学习模型,构建了一个名为“智能手机”的系统ClearBuds这几乎完全消除了背景噪音。

“对我们来说,ClearBuds的诞生是出于需要,”他说伊珊Chatterjee他是一名博士生,也是《一篇论文在ACM移动系统、应用和服务国际会议上介绍了这项技术。他不仅是我的同班同学,还是我另外两位作家、博士生的室友Maruchi金而且Vivek Jayaram

查特吉说:“当大流行封锁开始时,和其他许多人一样,我们发现自己在这样近距离的房间里接了很多电话,房子周围有很多噪音,厨房的噪音、建筑噪音、谈话声。”所以他们决定集中他们在硬件、网络和机器学习方面的经验来解决这个问题。

Jayaram说,语音增强的最大挑战之一是分离出多种声音。虽然最近的机器学习方法已经很擅长区分不同种类的声音,并利用它来屏蔽背景噪音,但当两个人同时说话时,它们仍然很困难。

解决这个问题的最好方法是使用多个相距稍远的麦克风,这样你就可以三角定位不同噪音的来源。这使得根据两个说话者的位置而不是他们的声音来区分他们成为可能。但要使其有效,麦克风需要在一个合理的距离。

大多数商业产品在每个耳塞中都有麦克风,它们之间的距离应该足够远,以便进行像样的三角测量。但是,流媒体和同步音频都超出了今天的蓝牙标准,Kim说。这就是为什么苹果的AirPods和高端助听器在每个耳塞里都有多个麦克风,允许它们在从单个耳塞传输到连接的智能手机之前进行一些有限的三角测量。

为了解决这个问题,研究人员设计了一个定制的无线协议,让其中一个耳塞传输一个时间同步信标。第二个耳塞利用这个信号将自己的内部时钟与另一个耳塞的内部时钟进行匹配,确保两个音频流保持同步。该团队在由商品电子元件制成的定制耳塞上实现了这一协议,并将外壳3d打印出来,但同步每个耳塞的流只解决了部分问题。

研究人员希望利用最新的深度学习技术来处理音频,但他们还需要在智能手机上运行语音增强软件。这些模型都有大量的计算预算,大多数使用人工智能进行语音增强的商业产品都依赖于将音频传输到强大的云服务器。贾亚拉姆说:“一部手机,即使是较新的手机,其计算能力也只是GPU卡的一小部分,GPU卡通常用于运行深度学习。”

他们的解决方案是采用一个预先存在的神经网络,该网络可以学习检测两个传入信号的时间差,因此可以对源进行三角测量。然后,他们通过减少参数和层数,将其精简到最基本的部分,直到它可以在智能手机上运行。像这样剥离网络导致音频质量明显下降,引入了噼啪声、静态和砰砰声,因此研究人员将输出输入另一个网络,该网络学会过滤掉这些扭曲。

贾亚拉姆说:“这种创新是将两种不同类型的神经网络结合在一起,每一种都可以非常轻量级,结合在一起,它们可以接近这些无法在iPhone上运行的真正大型神经网络的性能。”

在与苹果AirPods Pro进行测试时,ClearBuds在所有测试中都实现了更高的信号失真比。该团队还让37名志愿者对来自嘈杂现实环境的音频剪辑进行评分,比如嘈杂的餐馆或繁忙的交通十字路口。通过ClearBuds的神经网络处理的那些被发现有最好的噪音抑制和整体的听力体验。在实际测试中,8名志愿者明显更喜欢ClearBuds,而不是他们通常用来打电话的音频设备。

他说,输出结果确实存在一些失真Tillman Weyde但它们并不是特别具有侵入性,总体而言,该系统在去除背景噪音和声音方面非常有效。他补充说:“这是一个学生和学术团队的伟大成果,他们显然在这个项目上投入了大量的工作,以便在影响数亿使用无线耳机的人的问题上取得有效进展。”

亚历山大Defossez脸书巴黎人工智能研究中心的研究科学家说,这项工作非常令人印象深刻,但他指出一个局限性是,将音频传输到智能手机并进行处理的总时间为109毫秒。他说:“我们总是从网络得到50到100毫秒的延迟。”“额外增加100毫秒是一个巨大的代价,随着通信堆栈变得越来越‘智能’,我们最终将在所有通信中遇到相当明显而恼人的延迟。”

对话(0)

警察如何利用国会暴乱的数字记录

法医技术很强大,但它值得以隐私为代价吗?

11分钟读取
垂直
图为在美国国会大厦前举起手拿手机的人的剪影图。叠加在头部的是一个绿色矩阵,它表示用于面部识别的数据点
加布里埃尔·齐默
绿色

那群穿着讲究的人2021年1月5日晚聚集在巴尔的摩郊区的年轻人看起来不像极端分子。但是第二天,检察官声称,他们都将在致命的起义中闯入美国国会大厦。几个人会抢劫并破坏媒体设备,还有一个人会袭击一名警察。

这些美国第一运动的成员对抗议并不陌生,他们努力地戴上面具遮住自己的脸。没有人在社交媒体上吹嘘自己的功绩,他们的朋友或家人也没有人站出来谴责他们。但在1月5日,他们犯了一个非常严重的家庭错误:他们共用了一个披萨。

继续阅读↓ 显示更少
{“imageShortcodeIds”:[]}
Baidu