Photo Credit : INSIDE 經 GPT-4 生成。

AI 僅需幾秒就能完美仿聲!Amazon 推出迄今最大的文字轉語音模型

雖然科技社群最近應該是在被 OpenAI 的 Sora 洗版,不過 Amazon 最近也端出了一項值得關注的研究:經 10 萬小時訓練的 10 億參數文字轉語音模型,驚人的是:它能讀懂文本中的「情緒」並且完美表現出該有的說話方式,如驚訝、嘲諷等等。

Amazon 的研究人員最近推出了迄今為止規模最大的文字轉語音模型,該模型經過改進,能夠更好、更流暢且自然地(簡直就像人類說出來的)表達出複雜的句子,在品質與自然度上表現絕佳。

值得注意的是,這個名為 BASE TTS(文字轉語音)的模型,能夠僅憑幾秒鐘的參考音頻模仿發音者特徵,甚至在輸出語音時「帶有情緒」,與以往 Google、Siri 等語音助理有些「恐怖谷」效應的聲音十分不同。

有興趣的讀者可以前往 Amazon 的網頁前往聆聽,根據 Amazon 的說法,該網頁中的所有音訊都沒有經過後製。

BASE TTS 全名為 Big Adaptive Streamable TTS with Emergent abilities,擁有以下幾個技術亮點:

  • 進階的自然度:BASE TTS 模型透過使用公共領域中超過 100,000 小時的語音數據進行訓練,這龐大的數據訓練使它能夠更精確地表達複雜句子,提高了語音合成的可靠性。
     
  • 多語言能力:雖然 BASE TTS 主要針對英語進行最佳化,比例達到 90%,但它也包括了德語、荷蘭語和西班牙語的數據,展現了其多語言處理的潛力。
     
  • 破紀錄的模型大小:BASE TTS 中最大的版本,BASE-large,擁有 9.8 億個參數,是迄今為止最大的文字轉語音模型。Amzon 還分別以 10,000 個小時以及 1,000 個小時的音訊分別訓練了 400M 和 150M 的參數模型。
     
  • 高度模仿能力:Amazon 團隊強調,BASE TTS 能夠根據幾秒鐘的參考音頻模仿發音者的特徵,這使得它能夠在不同的應用場景中提供高度客製化的語音輸出。
     
  • 研究和開發的重點:該團隊深入研究了復合名詞、情感表達、外來詞處理、副語學、標點符號、問題和語法複雜性等領域,為該模型的表達能力奠定了基礎,使它可以正確說出複雜的文本。

目前 BASE TTS 這仍然是一個實驗模型,而非正式的商業版。且由�� 2024 年即將迎來美國總統大選,Amazon 認為這一模型存在著被有心人士濫用的風險,因此拒絕發布該模型的來源和其他數據,不過我們仍然可以關注今年文字轉語音這一領域是否會出現更重大的進展。

責任編輯:Sisley
核稿編輯:Mia

快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!

延伸閱讀:


本文初稿為 INSIDE 使用 AI 編撰。

 

 

 

 

 

最新發展:

AWS 在台設立基礎設施區域(Region)資料中心,2025 正式啟動未來將投資數十億美元

Amazon Web Services (AWS) 日前正式宣布將於 2025 年在台灣設立 AWS 亞太(台北)區域(Region),目的賦能台灣企業客戶獲得三大目標效益,並且伴隨日後將展開數十億美元的投資計畫,支持台灣市場擁有更充沛能量發展雲端服務產業。

2006 年成立的 AWS ,經過十多年的醞釀,日前正式宣布將於 2025 年在台灣設立 AWS 亞太(台北)區域(Region),目的賦能台灣企業客戶獲得三大目標效益,並且伴隨日後將展開數十億美元的投資計畫,支持台灣市場擁有更充沛能量發展雲端服務產業。

事實上, AWS 在台灣的投資案可看出具規劃性的策略。從 2014 年先推出兩個 Amazon CloudFront (邊緣節點),主要用來提供 CDN (內容交付網路)、 DNS (網域名稱系統)服務;接著 2018 年在台北開設第一座 AWS Direct Connect 站點,並於四年後在 2022 年啟動 AWS Local Zones (本地區域),接著就是 2025 年將打造首座 AWS 亞太(台北)區域級的資料中心(Region)。

Photo Credit: TNL Brand Studio

AWS 在台首座區域級資料中心,目標賦能企業客戶三大目標

所有的投資,背後一定有務實的戰略考量。 AWS 台灣解決方案架構師主管 Ivan 解釋, AWS 會在台北設立 Region 主要瞄準三大關鍵要素。

第一是讓台灣的開發者、新創、企業、教育、娛樂、金融和非營利組織,直接在本地的區域資料中心執行應用程式,相較把應用程式放在鄰近區域(如東京、新加坡)的資料中心運行,在地的資料中心能展現更高效率,儲存資料或應付工作負載,達成低延遲的效益。

第二個目標則是賦能台灣的用戶,加速驅動數位轉型、商業創新的腳步。因為新的 AWS 區域資料中心可以執行運算、儲存、資料庫、分析、機器學習(ML)和人工智慧(AI)等 AWS 提供的技術,讓用戶在雲端釋放創新潛力。

第三個實質的效益,則是可以幫助特殊行業,例如政府機關、金融業者得以因應法律規範。因為機敏資料在過去是無法存放在其他區域的資料中心,而 AWS 資料中心落地台灣之後,得以合規方式,儲存像是顧客或公部門的重要資料,有助提升資料安全,又可以符合監管要求。

台北 Region 共三個 Availability Zones 組成,強化數位韌性

AWS 的區域級資料中心,實際規模比想像中更龐大。 Ivan 舉例,台北的 AWS 區域資料中心啟用後,屆時會有三個可用區域(Availability Zones, AZ)組成,每個 AZ 之中又會有至少一個、至多數個資料中心所組成。為什麼台北的區域資料中心特別規劃三個 AZ ? Ivan 解釋,核心考量就是為了達到「數位���性」備援目的。

三個 AZ 坐落在不同位置,讓距離有所區隔,每個 AZ 之間也會有獨立的水電系統、冷卻裝置、以及相關安全硬體措施;而且 AZ 與 AZ 之間,會透過超低延遲的高速頻寬網路相連接,來達到三個 AZ 彼此後援。若遇到特殊狀況一個 AZ 若毀損,其他兩個 AZ 就能立刻啟動備援機制,讓數據及程式應用持續運行,達到實際分散風險的價值。

除了關注運作韌性,對於資料須符合國際(特別是歐盟)的一般資料保護規則(GDPR)規範, AWS 針對這部分也有相對應的舉措。 Ivan 指出,因為牽涉資料合規要求,企業客戶有自主權選擇把資料落地到某個 Region 儲存、處理, AWS 不會主動幫客戶把他們的資料備份到其他的 Region。

除此之外,有些企業客戶的終端用戶資料可能來自不同市場,特別是歐洲顧客的資料,這時候,使用 AWS 的雲端應用如何確保符合 GDPR 相關規範?對此, Ivan 提到 AWS 符合 143 個相關合規及認證等標準,包含球資訊安全性標準支付卡行業(PCI)資料安全標準(DSS)、聯邦資訊處理標準(Federal Information Processing Standards, FIPS)。另外在 AWS 的架構環境,也有提供 300 多個聚焦在資料安全、資料合規、資料治理等面向的服務給客戶運用。

除了硬體基礎建設,AWS 還挹注更多軟性服務能量

AWS 亞太(台北)區域(Region)正式營運後,除了有硬體基礎設施在運作,對於客戶的服務還包含其他面向,特別是培訓與認證方面,將有 AWS 的業務經理、解決方案架構師、專業服務顧問、合作夥伴等角色,幫助台灣的客戶實現數位轉型。「從 2014 至今,我們在台灣已經培訓十多萬位的技術人才、雲端人才, AWS 的長遠目標是放眼 2025 年,在全球達到 2,900 萬人的培訓與認證計畫,」 Ivan 補充道。

對於要把地端 IT 環境搬到雲端,或是要把其他 Region 資料搬遷到AWS 亞太(台北)區域(Region), AWS 會提供哪些具體協助?Ivan 提到他們所給予的遷移解決方案,會示範遷移過程的 Best Practice ,過程當中也會提供遷移白皮書,內容有具體的方法論或工具說明,指引客戶以最有效率的方式完成搬遷作業。

等搬遷之後,企業在使用 AWS 資源或在雲端執行應用程式之際,若遇到問題或想把雲端資源的使用更為優化,後續可以透過 AWS Trusted Advisor ,也就是藉由機器引擎來檢查、評估用戶的雲端環境之效能、彈性、安全性、營運狀況。 AWS Trusted Advisor 會進一步給予建議及實作,來達到成本最佳化目的。

從 Ivan 分享的內容可發現, 2025 年 AWS 在台灣本地資料中心上路後,得以與 AWS 在全球的機房串聯成巨大網絡,而且也可以為台灣用戶帶來4個層面的實際效益,包含增加營運彈性、降低傳輸的延遲、資料儲存合規、擴大服務深度及廣度,讓更多台灣企業享受雲端帶來的便利及效率,為台灣的創新能量增添更多薪火。