OpenAI语音引擎可能带来好处，也可能带来危险_分类专题

上周，OpenAI公布了它的语音克隆技术语音引擎，你可能已经在各种新闻标题中读到过，标题是“人工智能技术太危险了，不能发布”。

这是因为，在OpenAI的博客文章中，它解释了为什么要创建这个模型，以及它能带来什么好处，同时也说世界还没有准备好接受它，它可能会成为坏人手中的威胁。我们之前从OpenAI看到过这一点，它谈论了很多关于安全和负责任的人工智能，但值得记住的是，它既有非营利机构，也有商业机构。

OpenAI says its new tool can teach a machine to speak with any person’s voice after just 15 seco<em></em>nds of training.

该公司在介绍新产品时，经常会谈到它们可能带来的潜在破坏，它必须知道，这也会让它们看起来更酷、更强大、更有价值。那么，语音引擎将成为一股有利、不利或两者兼而有之的力量吗?

我们知道什么关于OpenAI的语音引擎?

OpenAI正在开发各种媒体(从文本到视频)的模型，这些模型可以在示例上进行训练，然后根据提示生成“原创”内容。这些所谓的生成式人工智能模型为其消费产品提供了动力，包括用于文本的GPT、用于图像的DALL-E和用于音频到文本转录的Whisper。

语音引擎是一个正在开发的模型，它可以训练个人的声音，然后使用该声音读取任何文本。想象一下，Siri或谷歌助手正在阅读网页内容，只不过听起来很像你。或者任何人，就此而言。

除了OpenAI提供的5个例子外，我们在判断语音引擎的能力方面没有太多的依据。虽然它们看起来令人印象深刻，但它们可能是最好的情况，而不是典型的结果。类似的技术往往在某些输出中听起来非常准确，而在其他输出中听起来空洞或机器人。

在一个例子中，一段15秒的人声片段——有人在为儿童朗读科学课——被输入到模型中，然后模型将其应用到五个不同的书面课程中。人类从来没有读过这些教训，但输出的音频听起来完全像它们。

然而，原始源录音本身听起来是压缩的，这使得很难判断输出的清晰度。读者缓慢、从容、独特地阅读，这可能是模型模仿的理想方式。对于所有五个给定的例子都可以这样说，所以我们不知道模型在产生会话语气方面有多好，或者它是否可以将不同的语气应用到它的输出中。

OpenAI在其博客中表示，该模型正在由少数可信赖的合作伙伴在严格控制的条件下进行测试，并且尚未决定何时或是否向公众开放。该公司表示，提供这些细节是希望开启一场关于负责任地使用这项技术的对话。

如果这种或类似的技术被公开，会出现什么问题?

当您了解这项技术时，您可能想到的第一个危险是错误信息，这是一个真正值得关注的问题。

假设它像OpenAI所说的那样有效，一个坏演员只需要从任何人那里得到15秒的讲话，就可以把他们说的几乎任何话都录下来。对于名人和政治家等杰出人物，您可以通过简单的谷歌搜索找到所需的所有培训输入。

诚然，让它听起来像是总理在说一些有争议的事情，然后把音频片段发布到一个随机的社交媒体账户上，不太可能是最有效的错误信息。然而，只要稍加努力，你就可以将这段虚假的声音片段嵌入到更广泛的采访中，甚至可以将其配音到视频中。

结合OpenAI的视频生成模型Sora，你可以想象出一个带有对话的完整视频，尽管现在，Sora的输出通常充满了错误，如果语音引擎也是如此，我也不会感到惊讶。

即使结果不完美，或者听起来有点奇怪，这项技术仍然可以用来产生有效的错误信息。

更简单的造假，包括明显经过ps或修改的元素、修改速度的视频和手动篡改的音频，以前曾被用来损害公众对政客的看法。当你考虑到一些在线渠道和影响者愿意推广和传播符合其政治目的的内容，而不考虑内容的来源或任何验证时，这尤其危险。

许多人会跳入的另一个危险是诈骗。但是，虽然骗子总是会利用任何技术优势，但我不相信语音引擎会给他们带来巨大的好处。

从理论上讲，骗子可以利用这项新技术来伪装口音，自然地说任何语言，听起来像当地人，但目前还不清楚他们如何在实时对话中流畅地做到这一点。他们还可以使用语音克隆来读取聊天机器人的文本输出，自动欺骗人们放弃他们的个人信息。但这已经成为可能:语音引擎的突破性方面是让机器人听起来像一个特定的人。

骗子会不会用一个听起来像你女儿使用语音引擎的机器人给你打电话?还是一个听起来像你老板的?潜在的。但他们首先需要收集大量信息，可能会从一个不熟悉的号码打来，而且可能会冒着说一些奇怪的话来提醒你。他们最好还是继续使用电子邮件和短信版本的骗局。

在OpenAI语音引擎的最终消费者版本中，许多挑战都可以被克服。例如，应用程序可能需要超过15秒的音频，并可能要求说话者阅读特定的单词或短语，以确认他们是真人，而不是录音。

OpenAI还可以在所有生成的语音中嵌入音频水印，以便于检测，如果有人用它打电话给你，你的智能手机可以提醒你。

OpenAI还提出了一个“禁用语音列表”，这意味着系统将拒绝为知名人士的声音建立模型。

它能起到什么合法的作用?

当我们谈论人工智能时，我们的第一反应似乎是恐慌、悲观和沮丧，但我们应该记住，这项技术确实有潜力做好事。

将任何文本转换成类似人类的语音都具有明显的可访问性优势，即时翻译也是如此。目前，世界上的信息主要存在于不同的桶中，其访问取决于一个人的语言或阅读、观看或收听的能力。人工智能可以让所有人都能使用。

OpenAI的语音引擎有一些独特的潜在优势。例如，任何撰写内容的人都可以在几秒钟内训练出自己的声音模型，然后将他们的作品制作成音频版本，供任何喜欢以这种方式阅读的人使用。结果可以从他们自己的声音中读出情感，而不是通过普通的机器人声音。显然，录制的版本听起来会更好，但制作时间可能要长几个小时。

此外，口语内容可以翻译成任何语言，但仍然可以用原作者的声音阅读。这也可以用于原始语言的内容，例如，制作每种语言的电视评论、公开演讲、视频或播客，几乎不需要额外的工作。

对于那些母语不是世界上最广泛使用的语言的人来说，这将特别有用，这个过程可以提供大量的信息和娱乐。在OpenAI给出的一个例子中，一个社区卫生组织向母乳喂养的母亲提供营养建议，这些建议被翻译成非正式的肯尼亚语笙，并大声播放。

去年，苹果推出了一款人工智能应用程序，可以让人们训练一个模型，将其用作个人文本到语音的语音，而语音引擎也可以用于类似的目的。

那些完全不会说话的人可以请人创建一个反映他们文化和地区口音的语音模型。在OpenAI的另一个例子中，一个因脑瘤而失去说话能力的人能够使用旧录音训练语音模型，因此她的文本到语音的声音听起来就像她年轻时的自己。

现在可能会发生什么?

无论这项技术是否像OpenAI所说的那样好，也无论它是否向公众发布，很明显，任何人的声音都有可能令人信服地实现文本到语音的转换，所以我们需要考虑很多事情。

显然，任何依赖于声音验证的安全措施都应该重新考虑，我们应该开始警惕仅仅因为我们听到了听起来像他们的录音就相信一个人说了一件事。与照片一样，录音和讲话视频也应该持怀疑态度——除非你能证实一个可靠的来源。

尽管我不相信人工智能语音会成为骗子伪装成受害者亲人的有效工具，但这一发展强化了我们现在应该采取的预防措施的必要性;如果有人用一个不熟悉的号码给你打电话，不要答应给他们任何东西。

开发能够识别人工智能生成的音频和图像并追踪其来源的方法也至关重要。无论好坏，这项技术很可能来自最初开发生成能力的实验室。

每周五在我们的技术通讯中获取关于技术，小工具和游戏的新闻和评论。在这里注册。

海招网声明：未经许可，不得转载。

为您推荐：

热门产品

欢迎来到进口食品商务网！