Nebula XAI

Experience the future artificial intelligence

解码人工智能语音:如何识别视频中的合成语音

在当今的数字环境中,区分现实与人工合成变得越来越困难。随着人工智能 (AI) 生成看似逼真的声音和视频,掌握识别这些合成声音的技巧至关重要。让我们深入探讨一些细微差别,帮助您区分 AI 生成的声音和真实的人类语音。

## 注意过分亢奋的语调

您是否注意到有些声音似乎充满活力,但又显得有些过头?这是 AI 语音的常见特征,通常被描述为过于活跃或语速过快。专注于揭露 AI 内容的视频专家 Jeremy Carrasco 指出,许多 AI 生成的视频片段,尤其是像 Sora 这样的应用程序生成的视频,其语音语速极快,仿佛在疯狂地塞进一个个单词。

人类说话时自然会调整节奏,强调某些词语和短语,而让其他词语或短语的语速放慢一些。相比之下,人工智能语音往往缺乏这种自然的起伏变化,导致其表达显得仓促而不自然。正如Sora公司负责人比尔·皮普尔斯(Bill Peeples)所指出的,人工智能视频语音的标志性特征是那种如同咖啡因过量般突兀的语速,所有内容都挤在一起,缺乏实质内容。

## 注意含糊不清、口齿不清的声音

人工智能生成语音的另一个明显特征是其难以做到语言学家所说的“协同发音”。协同发音指的是我们在说话时如何流畅地从一个音过渡到下一个音。语言学教授梅丽莎·贝斯-伯克(Melissa Baese-Berk)强调,人工智能生成的声音常常会发出含糊不清的声音,抹平了我们在人类语音中预期的自然音调变化。

例如,一段病毒式传播的人工智能生成视频中,一位女士突然称呼一位男士为她的“丈夫”。许多观众都被这段视频蒙蔽了,但贝斯-伯克指出“丈夫”(husband)一词的发音十分怪异。这种发音缺乏人类对话中自然流畅的音素融合,听起来明显带有机械感。这种发音不流畅是人工智能语音生成的关键特征之一。

## 注意发音错误

人工智能系统在处理一些独特或不常用的词汇时也会出现困难,导致明显的发音错误。据Rev公司人工智能副总裁米格尔·杰特(Migüel Jetté)称,这些发音错误往往暴露了人工智能语音的本质。例如,谷歌的文本转视频模型虽然不会快速读出单词,但仍然会错读短语或将对话分配给错误的角色,从而暴露其合成的本质。

此外,随着技术的进步,人工智能语音可能仍然无法完全掌握人类语音的复杂性,经常会在发音上出错,尤其是在发音人名或一些它们没有经过充分训练的专业词汇时。这种不一致性可以作为区分现实与人工智能生成内容的关键线索。

## 注意情感反应与故事内容不符的情况

最后,人工智能生成内容的一个关键标志是语音的情感表达与视频内容的语境脱节。在最近​​的一项研究中,参与者被要求评估不同的语音,他们经常通过语音无法将情感反应与所呈现的叙事内容相匹配来识别人工智能语音。

语音可能会念出一句充满戏剧性的台词,但却缺乏应有的力度或情感共鸣,使其听起来空洞或不协调。当语音听起来机械或缺乏人类语言特有的情感细微差别时,这很可能表明你正在处理人工智能生成的内容。

在这个虚假信息传播迅速的世界里,了解如何识别人工智能生成的声音不仅是一项有用的技能,更是一项至关重要的技能。无论是个人媒体消费还是应对复杂的数字通信,能够区分合成语音和真人语音都能帮助你更明智地选择观看的内容。因此,下次观看视频时,请牢记这些线索,并努力提升识别人工智能崛起迹象的能力。

Generative AI GPT Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion