在當今科技飛速發(fā)展的時代,AI 在文本到語音TTS領域取得了令人矚目的成果。從阿里發(fā)布的 FLUX.1-Turbo-Alpha,到各種新型的 TTS 系統(tǒng),不斷刷新著人們對語音技術的認知。
Meta 首席人工智能科學家 Yann LeCun 對人工智能威脅論表示質(zhì)疑,而特斯拉人形機器人 Optimus 現(xiàn)場做飲料且被證實有人遠程控制。實驗還發(fā)現(xiàn),即使少量合成數(shù)據(jù)也可能導致模型崩潰,規(guī)模越大越嚴重。同時,AI 醫(yī)療建議存在安全隱患,上海交大團隊則開發(fā)了相關算法和預警平臺。報告顯示,AI 服務器在全球服務器市場占比頗高。
眾多 TTS 系統(tǒng)各有特色。如 F5-TTS 簡化了傳統(tǒng)模型的復雜性,結合 ConvNeXt 和 DiT 提升了效果。智譜技術團隊開源的 CogView3 系列模型能力上線“智譜清言”App。OpenAI 推出新基準評估 AI 能力,Kaggle 提供多種比賽衡量參與者水平。
在 TTS 模型方面,有像 ChatTTS 這樣支持中英文對話、能生成自然流暢語音的模型,還有字節(jié)開發(fā)的 Seed-TTS,以及 Fish Speech 等,它們在語音質(zhì)量、屬性控制和多樣性上表現(xiàn)出色。此外,還有能克隆語音及修改音頻文本的 VoiceCraft,具有情緒控制功能的 EmotiVoice 等。
這些 TTS 系統(tǒng)不僅在功能上不斷創(chuàng)新,應用場景也日益廣泛,涵蓋了有聲讀物、虛擬助手、視頻配音等多個領域。
點擊展開全文
打開APP,閱讀體驗更佳
Copyright 2024 //www.lzh13.com/ 版權所有 浙ICP備16022193號-1 網(wǎng)站地圖