小雷平時(shí)刷B站經(jīng)常會(huì)看到有UP主發(fā)布AI模仿明星唱歌的視頻，音色音準(zhǔn)至少有6-7成的相似度，甚至部分訓(xùn)練到位的AI模型能復(fù)刻出與明星幾乎一致的聲音。除了唱歌外，這種功能還被廣泛應(yīng)用于不同角色的配音，一個(gè)被投喂了足夠數(shù)量和時(shí)長(zhǎng)的高質(zhì)素材的AI大模型，絕對(duì)能達(dá)到以假亂真的程度。

五音不全的小雷十分向往這項(xiàng)技術(shù)，但苦于本地訓(xùn)練模型的繁雜，一直沒(méi)有下定決心去訓(xùn)練自己的AI聲音。恰巧近期百度文心一言上線了定制智能體專屬聲音的新功能，官方宣稱用戶只要花費(fèi)幾秒就能完成設(shè)定。

如此省時(shí)省力就能訓(xùn)練出自己的AI聲音？帶著疑惑，小雷嘗試著創(chuàng)建專屬自己的「AI嘴替」。

創(chuàng)建“AI嘴替”很高效，但功能太有限

打開(kāi)文心一言App，點(diǎn)擊下方「」號(hào)，我們就進(jìn)入到智能體的創(chuàng)建界面。在聲音選項(xiàng)欄中，我們能給智能體選擇聲音特性。在官方聲音根據(jù)方言、性別、音色以及角色進(jìn)行分類，提供了32種不同的聲音。但我們目標(biāo)明確，還是來(lái)體驗(yàn)下創(chuàng)建自己的聲音這一功能。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：雷科技制作，文心一言頁(yè)面

點(diǎn)擊「創(chuàng)建我的聲音」，用戶需要用自然的語(yǔ)氣朗讀系統(tǒng)給出的文字，讓系統(tǒng)識(shí)別音色音準(zhǔn)。經(jīng)實(shí)測(cè)，識(shí)別過(guò)程僅需2-3秒，小雷的「AI嘴替」就正式創(chuàng)建成功。值得注意的是，系統(tǒng)在錄制前會(huì)對(duì)環(huán)境音進(jìn)行短暫的識(shí)別，確認(rèn)噪聲符合錄制要求后，才正式進(jìn)入錄制環(huán)節(jié)。

不僅如此，我們還能對(duì)智能體的性格特征、口頭禪、個(gè)人經(jīng)歷、親友關(guān)系、興趣愛(ài)好以及開(kāi)場(chǎng)白，進(jìn)行個(gè)性化定制，這些因素會(huì)影響智能體后續(xù)的交流表現(xiàn)。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：雷科技制作，文心一言頁(yè)面

話不多說(shuō)，我們來(lái)看看文心一言在短時(shí)間內(nèi)創(chuàng)建的AI聲音究竟能不能讓人滿意。開(kāi)啟聲音播報(bào)功能后，小雷試著讓智能體給我介紹雷科技的相關(guān)信息，先不說(shuō)聲音，至少對(duì)雷科技的介紹還是比較全面的，除了公眾號(hào)168萬(wàn)粉絲（已超過(guò)170萬(wàn)）的數(shù)據(jù)有些過(guò)時(shí)外，其他描述大體一致。

說(shuō)回聲音，音色方面本人認(rèn)為至少能達(dá)到8成的相似度，尤其是情緒、語(yǔ)氣的表現(xiàn)，差點(diǎn)讓小雷以為是自己在說(shuō)話?；蛟S是為了讓用戶能更好的聽(tīng)清楚智能體的表達(dá)，整體語(yǔ)速稍慢，想讓用戶耐心聽(tīng)完全部回答可能會(huì)有些難度。

對(duì)比傳統(tǒng)的文字表達(dá)，智能體語(yǔ)音回答的擬人度更高，在回答中加入了比較多的語(yǔ)氣詞，更接近人們?nèi)粘＝涣鞯谋磉_(dá)習(xí)慣。驗(yàn)收完聲音質(zhì)量后，小雷決定還是回歸到自己對(duì)AI嘴替的本質(zhì)要求——唱歌，十分可惜的是，目前文心一言創(chuàng)造的智能體暫時(shí)不支持該項(xiàng)功能。隨后小雷換了個(gè)角度，讓智能體朗讀歌詞，這次倒是成功了，雖然朗讀運(yùn)用的是本人音色，但從呈現(xiàn)效果距離音樂(lè)確實(shí)還差點(diǎn)意思。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：雷科技制作，文心一言頁(yè)面

后續(xù)，小雷圍繞聲音進(jìn)行了朗誦、念詩(shī)等測(cè)試，效果大差不差。大家可以理解為一個(gè)聲音狀態(tài)永遠(yuǎn)穩(wěn)定的自己，能讓他代替你完成許多基礎(chǔ)性的語(yǔ)言工作，但呈現(xiàn)效果與你錄制時(shí)的情感、風(fēng)格和自然度有著極高的關(guān)聯(lián)性。因?yàn)樾±撞⒉皇菑氖虏ヒ魧I(yè)，因此AI聲音的效果算不上特別好，如果用戶能提供更高質(zhì)量的語(yǔ)音素材，或許文心一言能給到更好的反饋。

總的來(lái)說(shuō)，文心一言這項(xiàng)新功能確實(shí)給小雷帶來(lái)了驚喜，在傳統(tǒng)離線本地訓(xùn)練的基礎(chǔ)上，通過(guò)文心大模型和語(yǔ)音合成大模型的大量語(yǔ)音訓(xùn)練，讓AI聲音無(wú)論是生成效率，還是呈現(xiàn)效果都能讓人滿意，但其個(gè)人助理的定位讓其功能受到了一定限制，智能體無(wú)法提供類似唱歌等其他功能，用戶也無(wú)法進(jìn)一步訓(xùn)練AI聲音，讓AI聲音的表現(xiàn)效果更接近本人。

高質(zhì)量AI聲音，還得靠高強(qiáng)度AI訓(xùn)練

事實(shí)上，這是所有「快餐式創(chuàng)建AI聲音」的應(yīng)用都會(huì)面臨的問(wèn)題。同樣是個(gè)性化聲音定制服務(wù)，通義實(shí)驗(yàn)室提供的服務(wù)則需要用戶錄制20句話，用于定制自己的AI聲音，整體效果與文心一言相差不大，效果上依舊存在瓶頸，關(guān)鍵原因正是輸入和訓(xùn)練的素材不夠。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：魔搭ModelScope

大家日常聽(tīng)到最多個(gè)性化定制聲音的場(chǎng)景，應(yīng)該是語(yǔ)音導(dǎo)航、文字播報(bào)或者小說(shuō)閱讀等方面。通常來(lái)說(shuō)，從文本到聲音的技術(shù)要讓AI聲音達(dá)到合格標(biāo)準(zhǔn)，需要音源人在專業(yè)錄音棚錄制成百上千句的數(shù)據(jù)量，高規(guī)格的定制流程將絕大多數(shù)普通人對(duì)AI聲音的探索拒之門外。

而隨著個(gè)性化語(yǔ)音合成（Personal TTS）技術(shù)的成熟，平臺(tái)通過(guò)手機(jī)、電腦等常見(jiàn)錄音設(shè)備獲取目標(biāo)的少量聲音片段后，就能快速構(gòu)建出目標(biāo)的語(yǔ)音合成系統(tǒng)。與傳統(tǒng)定制聲音技術(shù)相比，僅需少量數(shù)據(jù)量是個(gè)性化語(yǔ)音合成的最大優(yōu)勢(shì)。

無(wú)論是文心一言，還是通義實(shí)驗(yàn)室，他們都只需要極少的數(shù)據(jù)量，就能給用戶提供個(gè)性化聲音定制服務(wù)，大大降低了語(yǔ)音合成的定制門檻，將AI聲音普及給普通用戶。但有得必有失，TTS技術(shù)在降低聲音定制門檻的同時(shí)，也給這項(xiàng)功能的上限帶上了枷鎖。

根據(jù)魔搭ModelScope提供的產(chǎn)品邏輯圖，我們能看出TTS模型需要經(jīng)過(guò)錄音檢測(cè)、數(shù)據(jù)處理、模型訓(xùn)練、打包合成四個(gè)階段，最終形成我們的AI聲音。有限的數(shù)據(jù)投喂量讓AI聲音的語(yǔ)言邏輯、語(yǔ)音語(yǔ)調(diào)，更多依托于已經(jīng)訓(xùn)練完成模型數(shù)據(jù)，而用戶錄制的素材或許只是更多作用在聲音表層，聲音靈魂仍是背后的大模型數(shù)據(jù)。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：魔搭ModelScope

作為參考，小雷又調(diào)查了本地訓(xùn)練聲音模型的步驟。相比起文心一言、通義實(shí)驗(yàn)室的便捷服務(wù)，本地訓(xùn)練聲音模型的聲音效果上限要高得多，但需要付出的成本也是幾何倍的增加。

首先，用戶得準(zhǔn)備一批高質(zhì)量的干聲音頻數(shù)據(jù)、一臺(tái)具備一定性能的計(jì)算機(jī)、一個(gè)AI聲音開(kāi)源項(xiàng)目，在經(jīng)歷一系列數(shù)據(jù)處理、特征提取以及N輪訓(xùn)練后，我們才能得到所需的AI聲音。

大家光看文字描述可能覺(jué)得也就那么回事，實(shí)際上，光是音頻數(shù)據(jù)的收集就是一個(gè)大工程。這決定了AI聲音的音色、聲音特征。特別要注意的是，這里的音頻數(shù)據(jù)指的是目標(biāo)的干聲，也就是要去除掉伴奏、雜音等一切背景聲，沒(méi)有專業(yè)設(shè)備的用戶可以通過(guò)軟件實(shí)現(xiàn)。

當(dāng)然，如果大家嫌麻煩也可以去模型工坊網(wǎng)站下載已經(jīng)訓(xùn)練好的聲音模型，但肯定沒(méi)有還原自己聲音那么有成就感就是了。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

圖源：mxgf.cc

經(jīng)過(guò)無(wú)上限的高強(qiáng)度訓(xùn)練后，最終就能達(dá)到前段時(shí)間互聯(lián)網(wǎng)上比較流行的AI孫燕姿效果，并且用戶還能自由決定AI聲音進(jìn)行朗讀或唱歌等多種情景表達(dá)，不再局限于單一的表達(dá)形式。

大模型聯(lián)動(dòng)，是AI聲音的下一個(gè)機(jī)會(huì)？

AI對(duì)聲音的影響已經(jīng)深入到各個(gè)領(lǐng)域，從文字轉(zhuǎn)語(yǔ)音，到音樂(lè)，我們見(jiàn)證了許多有趣的AI聲音應(yīng)用。前段時(shí)間，小雷體驗(yàn)了文生音頻的新星——Suno，其高效高質(zhì)的音樂(lè)生成方式令不少音樂(lè)人產(chǎn)生危機(jī)感。盡管現(xiàn)階段絕大多數(shù)的AI聲音類模型仍存在部分缺陷，但AIGC重構(gòu)內(nèi)容產(chǎn)業(yè)幾乎是必然。

AI聲音與AI音樂(lè)一樣，是普通人的自我表達(dá)。AI的作用更多是降低人們的創(chuàng)作門檻，令普通人也能實(shí)現(xiàn)幻想中的場(chǎng)景。目前諸多AI大模型還處于「孤島」的狀態(tài)，在雷科技看來(lái)，當(dāng)單一的AI大模型發(fā)展到瓶頸階段，可能接下來(lái)就是不同類型大模型之間的有效聯(lián)動(dòng)。

舉個(gè)簡(jiǎn)單的例子，用戶通過(guò)ChatGPT生成想要的歌詞，由Suno將歌詞編制成曲并賦予音樂(lè)風(fēng)格，最后將自己的AI聲音加入其中。當(dāng)多個(gè)大模型建立連接，用戶要做的或許就是下達(dá)一個(gè)指令，就能創(chuàng)作出一首專屬自己的歌曲。

當(dāng)然，目前AI大模型還是持續(xù)發(fā)展的階段。像文心一言、通義千問(wèn)等國(guó)產(chǎn)大模型也在不斷迭代之中，此次小雷體驗(yàn)的個(gè)性化聲音定制功能雖然在效率、質(zhì)量方面已有不錯(cuò)的表現(xiàn)，但在功能多樣性上還有巨大的進(jìn)步空間。

或許在未來(lái)，文心一言的智能體可以突破助理定位，展現(xiàn)出不遜色于本地訓(xùn)練大模型的表現(xiàn)效果，屆時(shí)AI聲音這一技術(shù)也能找到更多適用的場(chǎng)景，給用戶體驗(yàn)以及音頻相關(guān)的行業(yè)帶來(lái)帶來(lái)翻天覆地的變化。

北京國(guó)際汽車展覽會(huì)（北京車展）將于4月25日-5月4日隆重舉行，本屆車展以“新時(shí)代新汽車”為主題，是“汽車從電動(dòng)化走向智能化”的風(fēng)向標(biāo)。

屆時(shí)，包括比亞迪、小米、AITO問(wèn)界、小鵬、蔚來(lái)、理想、極氪、極越、長(zhǎng)安深藍(lán)等頭部品牌將悉數(shù)登場(chǎng)，除新車型“大比武”外，自動(dòng)駕駛技術(shù)的推進(jìn)、智能座艙的演化和AI大模型與汽車的結(jié)合，都將是重要看點(diǎn)。雷科技旗下“關(guān)注電動(dòng)車，更懂智能化”的賬號(hào)電車通將派出報(bào)道團(tuán)前往北京現(xiàn)場(chǎng)，進(jìn)行一線專業(yè)報(bào)道，敬請(qǐng)關(guān)注。

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

創(chuàng)建“AI嘴替”很高效，但功能太有限

高質(zhì)量AI聲音，還得靠高強(qiáng)度AI訓(xùn)練

大模型聯(lián)動(dòng)，是AI聲音的下一個(gè)機(jī)會(huì)？

相關(guān)新聞

2秒定制AI聲音！文心一言又整大活兒：效果驚喜

創(chuàng)建“AI嘴替”很高效，但功能太有限

高質(zhì)量AI聲音，還得靠高強(qiáng)度AI訓(xùn)練

大模型聯(lián)動(dòng)，是AI聲音的下一個(gè)機(jī)會(huì)？