2024-06-12 14:52 来源:本站编辑
眼睛也许是心灵的窗户,但在克利克实验室,声音才是最重要的。
总部位于多伦多的生命科学技术公司Klick Health的研究部门发现了一种分析声音的方法,这种方法非常精细,可以分辨出它是人还是人工智能驱动的机器。
随着最近几款人工智能聊天机器人的发布,deepfake(人工智能制作的视频、音频片段或照片看起来很真实)的数量出现爆炸式增长。从流行歌手泰勒·斯威夫特到美国总统乔·拜登,再到教皇,每个人都是这种现象的受害者。
而且预计短期内不会减弱。欧盟执法机构欧洲刑警组织(Europol)最近预测,到2026年,多达90%的在线内容可能是人工合成的,加拿大安全情报局(Canadian Security Intelligence Service)称这种情况“对加拿大的未来构成了真正的威胁”。
但Klick Labs负责数字健康研发的高级副总裁扬•福萨特(Yan Fossat)希望,他的公司能够帮助让人工智能世界变得更安全一点。
“每一项不受监管的技术都是危险的,它的发展速度比很多事情都要快,”他站在多伦多市中心的Klick实验室里说。
正是在这个布满电线、家用电子产品和嗡嗡作响的3D打印机的空间里,福萨特和一个三人小组开始思考他们最喜欢的科幻电影如何帮助他们解决深度造假问题。
福萨特说:“在《终结者》中,他们用狗来嗅人是否像人类。在《银翼杀手》中,有Voight-Kampff机器,我一直想做一台Voight-Kampff机器。”他指的是电影中一个虚构的测试,用来测量生理反应,比如眼球运动和反应时间,以确定一个角色是人类还是复制人。
在他们自己的项目中,Klick团队召集了49名有着不同背景和口音的人,他们把他们的音频输入deepfake生成器,制作合成剪辑。
这些片段是根据他们的声音生物标志物进行分析的,这些特征嵌入在声音中,告诉我们说话者的健康或生理状况。
例如,如果有人刚刚冲上一段楼梯,他们的呼吸就会加快,这可以从他们的声音中听到。声音也可以表明某人刚刚醒来或感到疲倦。
Klick实验室已经确定了12000个这样的生物标记,但为了区分人和机器,Klick的首席科学家Jaycee Kaufman说,迄今为止,它依赖于五个方面——语言的长度和变化,微停顿和大停顿的频率,以及说话和停顿的总时间比例。
她说,微停顿不到半秒,而大停顿则更长。当一个人在说话,只是喘口气或抓住单词时,他们通常会自然地出现。
福萨特补充说:“我们并没有真正注意到它,但它正在发生。”
“我们有大脑,它需要思考;我们有肺,我们需要呼吸。机器没有这种能力,所以它们不会这么做。”
到目前为止,Klick Labs识别深度伪造的方法有80%的成功率,但这种成功率可能不会持续太久。
福萨特说,判断一段视频是否为深度伪造越来越困难,因为人工智能在不断发展,“听起来越来越像人类的声音”。
他说:“例如,制造(生成式人工智能聊天机器人)ChatGPT的OpenAI公司几周前刚刚推出了一种新的语音深度假声音,它非常好,可以呼吸。”
“它会做那些微小的呼吸,这很神奇。”
他坚持认为,这一进展并没有使Klick实验室的研究毫无用处,因为它可以测试数千种其他生物标志物,比如心率,以进行深度检测。
Klick实验室正在进行的其他16项关于声音生物标志物和疾病的研究也可能有助于其研究。
其中一项研究使用声音生物标记来诊断糖尿病,女性的准确率为89%,男性为86%。
这项研究将很快继续进行,克利克将与多伦多的亨伯河医院合作进行一项研究。福萨特说,这项研究最终可能成为基于手机的工具的基础,任何人都可以用它来发现自己患这种疾病的风险有多大。
克利克研究的每一个进展都意味着有更多的机会了解生物标志物,并将其应用于疾病和深度伪造的检测,而事实证明,这些很难跟上。
福萨特说:“每次你做一件事,它的变化都太快了,当你完成的时候……一切都变了,我们必须再做一次。”