Tavus Inc.,一家致力于開發(fā)能模擬真人對話體驗的實時 AI 技術(shù)的人工智能研究初創(chuàng)公司,今天宣布發(fā)布了一系列突破性的 AI 模型。
該公司表示,正在通過其"對話視頻界面"構(gòu)建一個人機(jī)交互操作系統(tǒng),使 AI 能夠自然地感知、理解和回應(yīng)。這種體驗就像在 Zoom 或 FaceTime 通話中與真人交談一樣。Tavus 的使命是讓 AI 不僅能理解面部表情、語氣和肢體語言及其含義,還能通過自身的表情和語氣來傳達(dá)意義。
"人類在進(jìn)化過程中形成了面對面交流的方式。因此,我們希望教會機(jī)器如何實現(xiàn)這一點,"首席執(zhí)行官 Hassaan Raza 在接受 SiliconANGLE 采訪時表示。"如果我們相信未來會出現(xiàn) AI 同事、朋友和助手,我們就需要為此構(gòu)建相應(yīng)的接口。"
此次發(fā)布包含三個模型:Phoenix-3,首個能傳達(dá)細(xì)微表情的全臉 AI 渲染模型;Raven-0,一個突破性的 AI 感知模型,能像人類一樣觀察和推理;以及 Sparrow-0,一個先進(jìn)的對話輪替模型,為對話增添"生命火花"。
Phoenix-3 是公司的旗艦基礎(chǔ)模型,旨在創(chuàng)建"數(shù)字分身"——個人的高度真實再現(xiàn),并具備 AI 驅(qū)動的人類表情能力。現(xiàn)在的第三代版本提供全臉動畫,能夠克隆人物并準(zhǔn)確表現(xiàn)臉部每塊肌肉,這對模仿細(xì)微表情至關(guān)重要。Raza 表示,大多數(shù)商用面部動畫模型無法處理完整的面部,導(dǎo)致上下半部分不匹配,破壞了沉浸感。
"Phoenix-3 是一個全臉表情模型,具有情感控制功能,是首個無需大量數(shù)據(jù)就能實現(xiàn)這一功能的模型,"Raza 說。
最重要的是,Phoenix-3 的高保真度和面部肌肉控制意味著它能準(zhǔn)確模擬"微表情"——那些短暫、不由自主的面部表情,它們是情感反應(yīng)的結(jié)果。通過添加這一功能,該模型創(chuàng)造了一個生動的視頻模型體驗,比簡單的動畫面孔更加真實,更具情感和表現(xiàn)力。
為了使 Phoenix-3 能像人類一樣做出響應(yīng),Raven-0 賦予了 AI 觀察和理解場景的能力。它不是拍攝單獨的快照,而是持續(xù)觀察和理解視頻中事件的上下文,包括識別用戶的面部情緒和檢測環(huán)境變化。
例如,AI 輔導(dǎo)員可以通過監(jiān)控學(xué)生的表情來識別他們是否感到困惑或沮喪,并相應(yīng)地調(diào)整解釋方式。同樣,支持助手可以觀察客戶使用產(chǎn)品的過程,并就如何解決問題提供指導(dǎo)。
Raza 表示,Sparrow-0 試圖解決許多 AI 都會犯的錯誤。自然對話有一種流動感,參與者之間有一種給予和接受的關(guān)系,一方等待另一方停止說話后再接話。
然而,AI 有時會過早插話——有時甚至?xí)驍鄬Ψ健_@種突然性發(fā)生是因為 AI 模型的思考速度比人類快,而 AI 模型開發(fā)者非常努力地降低延遲,即 AI 模型響應(yīng)所需的時間。但如果 AI 響應(yīng)太快,就會顯得不自然。
Sparrow 模型通過理解語言節(jié)奏來讓對話感覺自然,知道何時暫停、何時說話和何時傾聽。它不會對"呃"這樣的填充詞做出反應(yīng),也不會等待長時間的沉默,而是根據(jù)語氣、節(jié)奏和上下文進(jìn)行調(diào)整。
"如果它確定你正在進(jìn)行快節(jié)奏的友好對話,它會快速回應(yīng),"Raza 解釋道。"但如果你說'讓我想想',AI 會給你空間。這樣就使對話更自然。"
與其他將技術(shù)拼湊在一起的公司不同,Raza 表示,Tavus 開發(fā)了一個集成系統(tǒng)來整合這些模型。結(jié)果是一種高度沉浸式的體驗,更像是在與真人交談,比其他人形化 AI 系統(tǒng)更自然。
Raza 表示,模型功能還有提升空間,這意味著需要持續(xù)改進(jìn) AI 感知和理解人類的能力。
"現(xiàn)在還不是完美的,但它是同類最佳,"Raza 補(bǔ)充道。"然而,我們未來的目標(biāo)是開發(fā)出一個如此深入理解人類的模型,除非你特意詢問,否則你不會知道它是一個模型。"