2秒定制AI聲音!文心一言又整大活兒:效果驚喜
小雷平時(shí)刷B站經(jīng)常會(huì)看到有UP主發(fā)布AI模仿明星唱歌的視頻,音色音準(zhǔn)至少有6-7成的相似度,甚至部分訓(xùn)練到位的AI模型能復(fù)刻出與明星幾乎一致的聲音。除了唱歌外,這種功能還被廣泛應(yīng)用于不同角色的配音,一個(gè)被投喂了足夠數(shù)量和時(shí)長(zhǎng)的高質(zhì)素材的AI大模型,絕對(duì)能達(dá)到以假亂真的程度。
五音不全的小雷十分向往這項(xiàng)技術(shù),但苦于本地訓(xùn)練模型的繁雜,一直沒(méi)有下定決心去訓(xùn)練自己的AI聲音。恰巧近期百度文心一言上線了定制智能體專屬聲音的新功能,官方宣稱用戶只要花費(fèi)幾秒就能完成設(shè)定。
如此省時(shí)省力就能訓(xùn)練出自己的AI聲音?帶著疑惑,小雷嘗試著創(chuàng)建專屬自己的「AI嘴替」。
創(chuàng)建“AI嘴替”很高效,但功能太有限
打開(kāi)文心一言App,點(diǎn)擊下方「 」號(hào),我們就進(jìn)入到智能體的創(chuàng)建界面。在聲音選項(xiàng)欄中,我們能給智能體選擇聲音特性。在官方聲音根據(jù)方言、性別、音色以及角色進(jìn)行分類,提供了32種不同的聲音。但我們目標(biāo)明確,還是來(lái)體驗(yàn)下創(chuàng)建自己的聲音這一功能。
圖源:雷科技制作,文心一言頁(yè)面
點(diǎn)擊「創(chuàng)建我的聲音」,用戶需要用自然的語(yǔ)氣朗讀系統(tǒng)給出的文字,讓系統(tǒng)識(shí)別音色音準(zhǔn)。經(jīng)實(shí)測(cè),識(shí)別過(guò)程僅需2-3秒,小雷的「AI嘴替」就正式創(chuàng)建成功。值得注意的是,系統(tǒng)在錄制前會(huì)對(duì)環(huán)境音進(jìn)行短暫的識(shí)別,確認(rèn)噪聲符合錄制要求后,才正式進(jìn)入錄制環(huán)節(jié)。
不僅如此,我們還能對(duì)智能體的性格特征、口頭禪、個(gè)人經(jīng)歷、親友關(guān)系、興趣愛(ài)好以及開(kāi)場(chǎng)白,進(jìn)行個(gè)性化定制,這些因素會(huì)影響智能體后續(xù)的交流表現(xiàn)。
圖源:雷科技制作,文心一言頁(yè)面
話不多說(shuō),我們來(lái)看看文心一言在短時(shí)間內(nèi)創(chuàng)建的AI聲音究竟能不能讓人滿意。開(kāi)啟聲音播報(bào)功能后,小雷試著讓智能體給我介紹雷科技的相關(guān)信息,先不說(shuō)聲音,至少對(duì)雷科技的介紹還是比較全面的,除了公眾號(hào)168萬(wàn)粉絲(已超過(guò)170萬(wàn))的數(shù)據(jù)有些過(guò)時(shí)外,其他描述大體一致。
說(shuō)回聲音,音色方面本人認(rèn)為至少能達(dá)到8成的相似度,尤其是情緒、語(yǔ)氣的表現(xiàn),差點(diǎn)讓小雷以為是自己在說(shuō)話?;蛟S是為了讓用戶能更好的聽(tīng)清楚智能體的表達(dá),整體語(yǔ)速稍慢,想讓用戶耐心聽(tīng)完全部回答可能會(huì)有些難度。
對(duì)比傳統(tǒng)的文字表達(dá),智能體語(yǔ)音回答的擬人度更高,在回答中加入了比較多的語(yǔ)氣詞,更接近人們?nèi)粘=涣鞯谋磉_(dá)習(xí)慣。驗(yàn)收完聲音質(zhì)量后,小雷決定還是回歸到自己對(duì)AI嘴替的本質(zhì)要求——唱歌,十分可惜的是,目前文心一言創(chuàng)造的智能體暫時(shí)不支持該項(xiàng)功能。隨后小雷換了個(gè)角度,讓智能體朗讀歌詞,這次倒是成功了,雖然朗讀運(yùn)用的是本人音色,但從呈現(xiàn)效果距離音樂(lè)確實(shí)還差點(diǎn)意思。
圖源:雷科技制作,文心一言頁(yè)面
后續(xù),小雷圍繞聲音進(jìn)行了朗誦、念詩(shī)等測(cè)試,效果大差不差。大家可以理解為一個(gè)聲音狀態(tài)永遠(yuǎn)穩(wěn)定的自己,能讓他代替你完成許多基礎(chǔ)性的語(yǔ)言工作,但呈現(xiàn)效果與你錄制時(shí)的情感、風(fēng)格和自然度有著極高的關(guān)聯(lián)性。因?yàn)樾±撞⒉皇菑氖虏ヒ魧I(yè),因此AI聲音的效果算不上特別好,如果用戶能提供更高質(zhì)量的語(yǔ)音素材,或許文心一言能給到更好的反饋。
總的來(lái)說(shuō),文心一言這項(xiàng)新功能確實(shí)給小雷帶來(lái)了驚喜,在傳統(tǒng)離線本地訓(xùn)練的基礎(chǔ)上,通過(guò)文心大模型和語(yǔ)音合成大模型的大量語(yǔ)音訓(xùn)練,讓AI聲音無(wú)論是生成效率,還是呈現(xiàn)效果都能讓人滿意,但其個(gè)人助理的定位讓其功能受到了一定限制,智能體無(wú)法提供類似唱歌等其他功能,用戶也無(wú)法進(jìn)一步訓(xùn)練AI聲音,讓AI聲音的表現(xiàn)效果更接近本人。
高質(zhì)量AI聲音,還得靠高強(qiáng)度AI訓(xùn)練
事實(shí)上,這是所有「快餐式創(chuàng)建AI聲音」的應(yīng)用都會(huì)面臨的問(wèn)題。同樣是個(gè)性化聲音定制服務(wù),通義實(shí)驗(yàn)室提供的服務(wù)則需要用戶錄制20句話,用于定制自己的AI聲音,整體效果與文心一言相差不大,效果上依舊存在瓶頸,關(guān)鍵原因正是輸入和訓(xùn)練的素材不夠。
圖源:魔搭ModelScope
大家日常聽(tīng)到最多個(gè)性化定制聲音的場(chǎng)景,應(yīng)該是語(yǔ)音導(dǎo)航、文字播報(bào)或者小說(shuō)閱讀等方面。通常來(lái)說(shuō),從文本到聲音的技術(shù)要讓AI聲音達(dá)到合格標(biāo)準(zhǔn),需要音源人在專業(yè)錄音棚錄制成百上千句的數(shù)據(jù)量,高規(guī)格的定制流程將絕大多數(shù)普通人對(duì)AI聲音的探索拒之門外。
而隨著個(gè)性化語(yǔ)音合成(Personal TTS)技術(shù)的成熟,平臺(tái)通過(guò)手機(jī)、電腦等常見(jiàn)錄音設(shè)備獲取目標(biāo)的少量聲音片段后,就能快速構(gòu)建出目標(biāo)的語(yǔ)音合成系統(tǒng)。與傳統(tǒng)定制聲音技術(shù)相比,僅需少量數(shù)據(jù)量是個(gè)性化語(yǔ)音合成的最大優(yōu)勢(shì)。
無(wú)論是文心一言,還是通義實(shí)驗(yàn)室,他們都只需要極少的數(shù)據(jù)量,就能給用戶提供個(gè)性化聲音定制服務(wù),大大降低了語(yǔ)音合成的定制門檻,將AI聲音普及給普通用戶。但有得必有失,TTS技術(shù)在降低聲音定制門檻的同時(shí),也給這項(xiàng)功能的上限帶上了枷鎖。
根據(jù)魔搭ModelScope提供的產(chǎn)品邏輯圖,我們能看出TTS模型需要經(jīng)過(guò)錄音檢測(cè)、數(shù)據(jù)處理、模型訓(xùn)練、打包合成四個(gè)階段,最終形成我們的AI聲音。有限的數(shù)據(jù)投喂量讓AI聲音的語(yǔ)言邏輯、語(yǔ)音語(yǔ)調(diào),更多依托于已經(jīng)訓(xùn)練完成模型數(shù)據(jù),而用戶錄制的素材或許只是更多作用在聲音表層,聲音靈魂仍是背后的大模型數(shù)據(jù)。
圖源:魔搭ModelScope
作為參考,小雷又調(diào)查了本地訓(xùn)練聲音模型的步驟。相比起文心一言、通義實(shí)驗(yàn)室的便捷服務(wù),本地訓(xùn)練聲音模型的聲音效果上限要高得多,但需要付出的成本也是幾何倍的增加。
首先,用戶得準(zhǔn)備一批高質(zhì)量的干聲音頻數(shù)據(jù)、一臺(tái)具備一定性能的計(jì)算機(jī)、一個(gè)AI聲音開(kāi)源項(xiàng)目,在經(jīng)歷一系列數(shù)據(jù)處理、特征提取以及N輪訓(xùn)練后,我們才能得到所需的AI聲音。
大家光看文字描述可能覺(jué)得也就那么回事,實(shí)際上,光是音頻數(shù)據(jù)的收集就是一個(gè)大工程。這決定了AI聲音的音色、聲音特征。特別要注意的是,這里的音頻數(shù)據(jù)指的是目標(biāo)的干聲,也就是要去除掉伴奏、雜音等一切背景聲,沒(méi)有專業(yè)設(shè)備的用戶可以通過(guò)軟件實(shí)現(xiàn)。
當(dāng)然,如果大家嫌麻煩也可以去模型工坊網(wǎng)站下載已經(jīng)訓(xùn)練好的聲音模型,但肯定沒(méi)有還原自己聲音那么有成就感就是了。
圖源:mxgf.cc
經(jīng)過(guò)無(wú)上限的高強(qiáng)度訓(xùn)練后,最終就能達(dá)到前段時(shí)間互聯(lián)網(wǎng)上比較流行的AI孫燕姿效果,并且用戶還能自由決定AI聲音進(jìn)行朗讀或唱歌等多種情景表達(dá),不再局限于單一的表達(dá)形式。
大模型聯(lián)動(dòng),是AI聲音的下一個(gè)機(jī)會(huì)?
AI對(duì)聲音的影響已經(jīng)深入到各個(gè)領(lǐng)域,從文字轉(zhuǎn)語(yǔ)音,到音樂(lè),我們見(jiàn)證了許多有趣的AI聲音應(yīng)用。前段時(shí)間,小雷體驗(yàn)了文生音頻的新星——Suno,其高效高質(zhì)的音樂(lè)生成方式令不少音樂(lè)人產(chǎn)生危機(jī)感。盡管現(xiàn)階段絕大多數(shù)的AI聲音類模型仍存在部分缺陷,但AIGC重構(gòu)內(nèi)容產(chǎn)業(yè)幾乎是必然。
AI聲音與AI音樂(lè)一樣,是普通人的自我表達(dá)。AI的作用更多是降低人們的創(chuàng)作門檻,令普通人也能實(shí)現(xiàn)幻想中的場(chǎng)景。目前諸多AI大模型還處于「孤島」的狀態(tài),在雷科技看來(lái),當(dāng)單一的AI大模型發(fā)展到瓶頸階段,可能接下來(lái)就是不同類型大模型之間的有效聯(lián)動(dòng)。
舉個(gè)簡(jiǎn)單的例子,用戶通過(guò)ChatGPT生成想要的歌詞,由Suno將歌詞編制成曲并賦予音樂(lè)風(fēng)格,最后將自己的AI聲音加入其中。當(dāng)多個(gè)大模型建立連接,用戶要做的或許就是下達(dá)一個(gè)指令,就能創(chuàng)作出一首專屬自己的歌曲。
當(dāng)然,目前AI大模型還是持續(xù)發(fā)展的階段。像文心一言、通義千問(wèn)等國(guó)產(chǎn)大模型也在不斷迭代之中,此次小雷體驗(yàn)的個(gè)性化聲音定制功能雖然在效率、質(zhì)量方面已有不錯(cuò)的表現(xiàn),但在功能多樣性上還有巨大的進(jìn)步空間。
或許在未來(lái),文心一言的智能體可以突破助理定位,展現(xiàn)出不遜色于本地訓(xùn)練大模型的表現(xiàn)效果,屆時(shí)AI聲音這一技術(shù)也能找到更多適用的場(chǎng)景,給用戶體驗(yàn)以及音頻相關(guān)的行業(yè)帶來(lái)帶來(lái)翻天覆地的變化。
北京國(guó)際汽車展覽會(huì)(北京車展)將于4月25日-5月4日隆重舉行,本屆車展以“新時(shí)代 新汽車”為主題,是“汽車從電動(dòng)化走向智能化”的風(fēng)向標(biāo)。
屆時(shí),包括比亞迪、小米、AITO問(wèn)界、小鵬、蔚來(lái)、理想、極氪、極越、長(zhǎng)安深藍(lán)等頭部品牌將悉數(shù)登場(chǎng),除新車型“大比武”外,自動(dòng)駕駛技術(shù)的推進(jìn)、智能座艙的演化和AI大模型與汽車的結(jié)合,都將是重要看點(diǎn)。雷科技旗下“關(guān)注電動(dòng)車,更懂智能化”的賬號(hào)電車通將派出報(bào)道團(tuán)前往北京現(xiàn)場(chǎng),進(jìn)行一線專業(yè)報(bào)道,敬請(qǐng)關(guān)注。