AI技术背后有哪些声音的应用?

发布网友

共5个回答

热心网友

这个潮流的最近一次上演，是几天前的百度AI开发者大会上，李彦宏现场播放了百度AI客服邀请开发者的真实电话录音。

当时我就在现场，第一通电话里那位开发者方言比较重，到底说了什么我基本没听懂。但百度的AI却应对自如，在电话中回答了各种问题。

第二通电话更神了，那位女开发者发现了小度的AI身份，直接问百度给ta发钱吗，结果被小度用一句“百度给我免费充电”，巧妙的“回撩”了过去。

在众人的惊叹中，我们很容易发现让AI打电话已经成为了“兵家必争”之地。前不久谷歌I/O大会上Google Assistant演示AI打电话订餐厅，一句“嗯哼”也安排得明明白白。几天之后微软的AI大会上马上反击，不仅上演电话秀，还高调Diss谷歌，表示微软小冰已经打过60多万次电话了。

打电话这件事就这么重要吗？引三大AI巨头都不惜电话费也要硬杠一下？

事实上，在这个AI跟陌生人直接进行有效沟通的场景里，隐藏着两个AI语音与NLP技术的核心关卡，足够给今天AI公司的军备竞赛提供完美肌肉秀。而AI打电话同时也指向另一个问题：AI到底能干什么，是不是在很多领域已经可以完全代替真实的产业劳动？

打个call的功夫，这些复杂的竞争与技术炫技就都显露了出来。

一颦一笑都有来历：为什么已经听不出AI还是真人？

AI打电话第一关：怎么让AI声音听起来不别扭？

我们知道，人和人之间的交流，其实绝大部分依靠的是简单的词汇量+大量复杂的情感词、语气词、助动词。如果我们把日常说话直接转化为文字，会发现文档里80%的话都是“无效信息”。

但怎么让AI学会这些东西，像真人一样有感情、有顿挫，有语气词，甚至有呼吸节奏地与人交流，是一门巨大的技术挑战。

百度AI开发者大会前，百度AI客服给大量开发者打了电话，其中很多开发者一开始压根没有发现这是位AI小姐姐。而这其实是建立在它没有刻意修饰机器音的基础上。

如何让AI听起来像人一样，这需要在语音合成与语序修饰上下一番功夫。而这也是各家展现本领的时刻。

根据资料，谷歌I/O大会上的打电话AI，使用了生成式 TTS 引擎。能根据不同的情境控制语音的语调，并生成一些语气词。当然，这背后还有DeepMind的WaveNet自然语音合成算法作法

热心网友

即使是最自然的电脑声音 - 无论是苹果的Siri还是亚马逊的Alexa - 听起来都像电脑。位于蒙特利尔的初创公司Lyrebird希望通过分析语音记录和相应的文本记录以及识别它们之间的关系，通过人为智能系统来学习模仿人的声音。上周推出的Lyrebird的语音合成可以每秒生成数千个句子 - 比现有方法快得多 - 并且模仿任何语音，这是一个进步，提出了有关如何使用和滥用技术的道德对于将文本转换为口头语言的计算机程序来说，生成自然语音的语音的能力一直是一个核心挑战。Siri，Alexa，Microsoft的Cortana和Google Assistant等人工智能（AI）个人助理都使用文本转语音软件来为用户创建更便利的界面。这些系统通过将来自预先录制的一种特定语音文件的单词和短语拼凑在一起工作。切换到不同的语音 - 比如像一个人的Alexa声音 - 需要一个新的音频文件，其中包含设备可能需要与用户进行通信所需的每个可能的词。Lyrebird的系统可以通过聆听几小时的语音来学习任何声音中的人物，音素和单词的发音。从那里它可以推断生成全新的句子，甚至添加不同的语调和情绪。Lyrebird的方法的关键是人工神经网络 - 它使用旨在帮助它们像人脑一样运作的算法 - 依靠深度学习技术将声音的一部分转换为语音。神经网络通过加强分层神经元单元之间的连接来接收数据并学习模式。

热心网友

当时我就在现场，第一通电话里那位开发者方言比较重，到底说了什么我基本没听懂。但百度的AI却应对自如，在电话中回答了各种问题。

热心网友

ai技术应该这也说现在国家富强，社会先进，科技时代有很多科学家研究各种稀奇古怪的产品，你可以用来配音或者模拟声音，辨认声线，所以技术背后都有它的应用

热心网友

奥妙的声音

全部栏目

AI技术背后有哪些声音的应用?