![](https://cdn.statically.io/img/bucket-img.tnlmedia.com/cabinet/2024/02/960c808b-dd2f-40b5-8851-7809cebcebda.png?fit=max&w=1280&auto=compress)
![](https://cdn.statically.io/img/bucket-img.tnlmedia.com/cabinet/2024/02/960c808b-dd2f-40b5-8851-7809cebcebda.png?fit=max&w=1280&auto=compress)
AI 僅需幾秒就能完美仿聲!Amazon 推出迄今最大的文字轉語音模型
Amazon 的研究人員最近推出了迄今為止規模最大的文字轉語音模型,該模型經過改進,能夠更好、更流暢且自然地(簡直就像人類說出來的)表達出複雜的句子,在品質與自然度上表現絕佳。
值得注意的是,這個名為 BASE TTS(文字轉語音)的模型,能夠僅憑幾秒鐘的參考音頻模仿發音者特徵,甚至在輸出語音時「帶有情緒」,與以往 Google、Siri 等語音助理有些「恐怖谷」效應的聲音十分不同。
有興趣的讀者可以前往 Amazon 的網頁前往聆聽,根據 Amazon 的說法,該網頁中的所有音訊都沒有經過後製。
BASE TTS 全名為 Big Adaptive Streamable TTS with Emergent abilities,擁有以下幾個技術亮點:
- 進階的自然度:BASE TTS 模型透過使用公共領域中超過 100,000 小時的語音數據進行訓練,這龐大的數據訓練使它能夠更精確地表達複雜句子,提高了語音合成的可靠性。
- 多語言能力:雖然 BASE TTS 主要針對英語進行最佳化,比例達到 90%,但它也包括了德語、荷蘭語和西班牙語的數據,展現了其多語言處理的潛力。
- 破紀錄的模型大小:BASE TTS 中最大的版本,BASE-large,擁有 9.8 億個參數,是迄今為止最大的文字轉語音模型。Amzon 還分別以 10,000 個小時以及 1,000 個小時的音訊分別訓練了 400M 和 150M 的參數模型。
- 高度模仿能力:Amazon 團隊強調,BASE TTS 能夠根據幾秒鐘的參考音頻模仿發音者的特徵,這使得它能夠在不同的應用場景中提供高度客製化的語音輸出。
- 研究和開發的重點:該團隊深入研究了復合名詞、情感表達、外來詞處理、副語學、標點符號、問題和語法複雜性等領域,為該模型的表達能力奠定了基礎,使它可以正確說出複雜的文本。
目前 BASE TTS 這仍然是一個實驗模型,而非正式的商業版。且由�� 2024 年即將迎來美國總統大選,Amazon 認為這一模型存在著被有心人士濫用的風險,因此拒絕發布該模型的來源和其他數據,不過我們仍然可以關注今年文字轉語音這一領域是否會出現更重大的進展。
責任編輯:Sisley
核稿編輯:Mia
快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!
延伸閱讀:
- 動口就能找到想要的商品,亞馬遜 AI 助理 Rufus 開始測試
- AWS 也有圖像產生工具了:Amazon Titan Image Generator! Bedrock 也超過 1 萬名商業用戶
- 更加專注在生成式 AI,亞馬遜將裁掉數百個 Alexa 相關職位
本文初稿為 INSIDE 使用 AI 編撰。
最新發展: