疫情让远程办公成为流行,视频会议更成为其中一大典型应用。
但过于频繁的视频会议,让一些人产生了奇怪的想法并将其付诸实践。最近,一位名为 马特 · 里德(Matt Reed)的工程师,就成功开发出了代替自己参加 ZOOM 视频会议的 AI。
乍看之下好像还挺像这么一回事儿的。
(来源:马特 · 里德)
而且这个视频会议 AI 不是只有画面而已,里德还为它设计了简单的语音互动功能,可用以接收你的领导或者同事所说的话,然后还能自动说出你所编写的内容,打造出和谐的会议互动氛围。
那么,这个机器人具体是如何实现的?
为了打造它,里德首先通过 Quicktime 录制了自己的视频图像,包含几个常用的视频会议表情,例如微笑,摆动头部等。当这些画面循环播放时,仿佛就是一个克隆版的自己。
然后是配置语音功能。基于 Artyom.js 这一语音识别和文本转语音的开源库,他构建了一个自定义 HTML Web 应用程序,可以实现对麦克风传入的音频进行语音识别和响应提示。
这个库的优点在于,不同于 Alexa 或 Siri 必须使用唤醒词才能说话,它只需要听到 “How are you”“Are you OK” 之类的命令就能触发下一步回应,比如循环表情静止的图像或者说出回复。
你可以将里德该步骤的创作理解为聊天机器人或 Alexa 语音技能。聊天机器人的原理就是经过编程,可以理解某些输入,并根据这些关键字运行命令以给出一些书面响应。但是由于人类语言的自然可变性,聊天机器人和里德的 Zoombot 还是蛮容易出错的,毕竟它们都没有学会人类随机应变的技能。
(来源:马特 · 里德)
最后,里德通过软件 ManyCam 创建虚拟网络摄像头,再将 Zoom 摄像头设置为 ManyCam 虚拟网络摄像头,然后打开扬声器,这个 Zoombot 就可以开始上班了!
现在,里德已经将他的具体教程发表在了 GitHub 上,而且广受关注。地址详见:https://github.com/mcreed/zoombot。或许你也有兴趣试一试。
尽管这项发明看起来颇具无厘头色彩,因为在实际的使用过程中,它和真人参会的反应还是有比较多的区别,例如你能通过眨眼的频次察觉出它并非真人(目前用来识别 DeepFake 视频的方法之一就包括观察眨眼频率),但里德确实展示了这样的一种需求和可能性,原来视频会议工具还能这么玩。
毕竟,当里德在真实的视频会议中使用他的 Zoombot 时,确实给已经对视频会议日益麻木的同事们带来了很多欢乐。
或许有一天这样诡异的景象真的会出现:打开一个视频会议,可能参加的全是机器替身。