在 1 月 25 日新闻报道的一段视频中,乔·拜登总统谈到了坦克。 但该视频的篡改版本本周在社交媒体上获得了数十万的浏览量,让人觉得他发表了攻击变性人的演讲。
数字取证专家表示,该视频是使用新一代人工智能工具制作的,任何人只需点击几下按钮,就可以快速生成模拟人声的音频。 虽然这次拜登在社交媒体上的剪辑可能没能骗过大多数用户,但这段剪辑表明,人们现在很容易制作出充满仇恨和虚假信息的“深度伪造”视频,这些视频可能会对现实世界造成伤害。
“像这样的工具基本上会火上浇油,”密歇根大学电气和计算机工程教授哈菲兹马利克说,他专注于多媒体取证。 “怪物已经逍遥法外了。”
它于上个月与 ElevenLabs 语音合成平台的测试阶段一起推出,该平台允许用户通过上传几分钟的音频样本并输入任何文本来生成任何人声音的逼真音频。
这家初创公司表示,该技术的开发目的是为电影、有声读物和游戏配音不同语言的音频,以保留说话者的声音和情感。
社交媒体用户很快开始分享人工智能生成的希拉里克林顿阅读拜登剪辑中相同的变性文本的音频样本,以及比尔盖茨据称说 COVID-19 疫苗导致艾滋病和女演员艾玛沃特森据称阅读的虚假音频片段希特勒的宣言“我的奋斗”。
不久之后,ElevenLabs 发推文说这是 看到“越来越多的声音克隆滥用案例”,并宣布它现在正在探索遏制滥用的保障措施。 第一步是让该功能仅供提供付款信息的人使用。 最初,匿名用户可以免费使用语音克隆工具。 该公司还声称,如果出现问题,它可以将任何生成的音频追溯到创作者。
但即使是追踪创作者的能力也无法减轻该工具的危害,加州大学伯克利分校教授 Hany Farid 表示,他专注于数字取证和错误信息。
“损害已经造成,”他说。
例如,Farid 表示,不良行为者可能会用顶级 CEO 说利润下降的虚假音频来影响股市。 YouTube 上已经有一段视频使用该工具修改了一段视频,让拜登看起来像是在说美国正在对俄罗斯发动核攻击。
具有相同功能的免费和开源软件也出现在网上,这意味着商业工具的付费墙不是障碍。 使用一个免费的在线模型,美联社在短短几分钟内生成了听起来像演员丹尼尔克雷格和詹妮弗劳伦斯的音频样本。
“问题是手指指向哪里以及如何将精灵放回瓶子里?” 马利克说。 “我们做不到。”
大约五年前,当深度造假技术首次成为头条新闻时,它们很容易被发现,因为对象不会眨眼,而且音频听起来很机械。 随着工具变得更加复杂,情况已不再如此。
例如,经过修改的拜登贬损变性人的视频,将人工智能生成的音频与总统的真实片段结合在一起,该片段取自 1 月 25 日美国有线电视新闻网宣布美国向乌克兰派遣坦克的直播。 拜登的嘴巴在视频中被操纵以匹配音频。 虽然大多数 Twitter 用户都意识到内容不是拜登可能会说的话,但他们仍然对它看起来如此逼真感到震惊。 其他人似乎相信这是真的——或者至少不知道该相信什么。
法里德说,好莱坞制片厂长期以来一直能够扭曲现实,但在不考虑其影响的情况下,获得该技术的机会已经民主化。
“它结合了非常非常强大的基于人工智能的技术、易用性,以及模型似乎是这样的事实:让我们把它放到互联网上,看看接下来会发生什么,”法里德说。
音频只是人工智能生成的错误信息构成威胁的一个领域。
Midjourney 和 DALL-E 等免费在线 AI 图像生成器可以通过简单的文本提示,以传统媒体的风格制作出逼真的战争和自然灾害图像。 上个月,美国的一些学区开始屏蔽 ChatGPT,它可以按需生成可读文本——比如学生学期论文。
ElevenLabs 没有回应置评请求。
通过 The Trust Factor 了解如何引导和加强对您的业务的信任,这是一份每周时事通讯,研究领导者成功所需的条件。 在此注册。