拍視頻都不用開(kāi)口了?2秒定制你的AI聲音,白嫖?。ǘ桃曨l的ai配音怎么做的)
只需2秒鐘,AI就能完美重建任何一個(gè)人的聲音,每個(gè)人都能擁有自己的AI聲優(yōu)。這對(duì)當(dāng)下炙手可熱的直播行業(yè)而言,可謂是個(gè)福音,主播們?cè)僖膊挥脫?dān)心倦怠期了,AI幫你一鍵解放勞動(dòng)力,賽博嘴替來(lái)了!
現(xiàn)在,這個(gè)功能在文心一言即可體驗(yàn),操作簡(jiǎn)單,還免費(fèi)!打開(kāi)文心一言App,選擇創(chuàng)建智能體,點(diǎn)擊創(chuàng)建自己的聲音,系統(tǒng)會(huì)給出一句話(huà),用你平時(shí)說(shuō)話(huà)的語(yǔ)氣念一遍,在極短時(shí)間內(nèi),約2s左右,即可獲得媲美真人、流暢自然的合成效果,并且合成音頻的質(zhì)量完美保持了你朗讀這句話(huà)時(shí)的情感、風(fēng)格和自然度,一鍵生成專(zhuān)屬你自己的賽博聲優(yōu)。你還可以構(gòu)建自己的個(gè)性化音庫(kù),再匹配上虛擬形象,就能快速打造出一個(gè)數(shù)字分身。
為什么這項(xiàng)技術(shù)能在2秒鐘就能復(fù)刻人們的聲音呢?傳統(tǒng)的技術(shù)主要是通過(guò)大量的樣本來(lái)制作模型,然后生成一段程序化表達(dá)的聲音。百度的這項(xiàng)語(yǔ)音合成新技術(shù),是在離線個(gè)性化的工作基礎(chǔ)之上,依托文心大模型和語(yǔ)音合成大模型通過(guò)大量的語(yǔ)音訓(xùn)練,讓AI真正理解了文本和聲音的對(duì)應(yīng)關(guān)系,結(jié)合大模型Prompt技術(shù),無(wú)需微調(diào),能夠以zeroshot的方式,快速生成自然、流暢的個(gè)性化合成聲音。很多時(shí)候甚至能理解文本中的情緒,最大程度上保持原聲的情感、風(fēng)格和自然度。所以,它只需要極短的樣本,幾秒鐘就能完成。
此外,對(duì)不同性別、不同年齡的人均適用,尤其是小孩和重口音的兼容效果非常出色,能很好的保留相應(yīng)的風(fēng)格和口音,適合中國(guó)社會(huì)地域分布廣泛,口音眾多的特點(diǎn)。在這一點(diǎn)上,具有顯著優(yōu)勢(shì)。
不僅如此,相比于傳統(tǒng)學(xué)術(shù)領(lǐng)域的語(yǔ)音合成技術(shù),百度新技術(shù)有較強(qiáng)的抗噪能力,即使原始錄制音頻背景嘈雜,依然能夠獲得流暢的、音質(zhì)干凈的合成效果。
此前,百度語(yǔ)音合成技術(shù)已有眾多應(yīng)用,比如在百度地圖上,用戶(hù)只需9句話(huà)就可合成專(zhuān)屬導(dǎo)航語(yǔ)音包、技術(shù)修復(fù)雷鋒原聲讀《雷鋒日記》、賦能智能汽車(chē)等。語(yǔ)音技術(shù)正加速生產(chǎn)發(fā)展和落地,改變?nèi)藗兊纳睢?/p>