仿生人會(huì)夢(mèng)見電子羊嗎?這是“科幻鬼才”Philip K. Dick的科幻名作,也是人類對(duì)

  10月18日至22日,第81屆2023世界科幻大會(huì)將在成都舉辦。大會(huì)前夕,紅星新聞、每日經(jīng)濟(jì)新聞聯(lián)合啟動(dòng)“幻響未來,全球追光”大型融媒體采訪報(bào)道,追尋科幻轉(zhuǎn)換為現(xiàn)實(shí)背后人類不同文明所共同擁有的科技與夢(mèng)想之光。

  商湯科技作為中國軟件公司,也將參加本次世界科幻大會(huì)。商湯科技研發(fā)的商湯如影應(yīng)用平臺(tái),以數(shù)字人視頻生成技術(shù)為核心,擁有多種AI生成能力,包括文本生成、語音生成、動(dòng)作生成、圖片生成、NeRF等。紅星新聞?dòng)浾呷涨皩TL了商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理欒青,就的現(xiàn)在與未來進(jìn)行探討。

  欒青:這個(gè)問題蠻科幻。從我的理解,目前的大模型或模擬人腦的系列人工智能技術(shù),被普遍認(rèn)為還沒產(chǎn)生自我意識(shí),是數(shù)據(jù)的匯總和演繹,而不是自我意識(shí)的某種形態(tài)。

  如果上升到哲學(xué)觀點(diǎn),自我意識(shí)是什么?其實(shí)是腦結(jié)構(gòu)對(duì)信息處理后的演繹。從這個(gè)角度,很難解釋說會(huì)不會(huì)產(chǎn)生自我意識(shí)。人工智能的物理結(jié)構(gòu)在模擬大腦,未來富余的電信號(hào)也可以去運(yùn)轉(zhuǎn),不能說這種情況未來不會(huì)發(fā)生。但現(xiàn)在來說,人工智能是為人的目的而存在。

  欒青:數(shù)字人技術(shù)包含好幾個(gè)方面,一方面是人機(jī)交互,就是數(shù)字人用人的方式去說話、動(dòng)作、表情,模擬人和人之間交互的感知和體驗(yàn)。這里面包含了兩塊主要技術(shù),一是人形視頻的生產(chǎn),二是用AI去生成人聲。

  除了人機(jī)交互,另一個(gè)技術(shù)是模擬大腦,是未來越來越被關(guān)注的。數(shù)字人除了擬人化,大腦非常厲害,計(jì)算能力比普通人腦更強(qiáng)??梢宰匀惑w會(huì)人的感情,還能處理和計(jì)算信息,給出最佳回復(fù),甚至提供情緒價(jià)值。

  紅星新聞?dòng)浾撸荷虦萍紝?shù)字人分成L1至L5五個(gè)等級(jí),將L4和L5等級(jí)的數(shù)字人統(tǒng)稱為“AI數(shù)字人”。目前商湯的數(shù)字人能完成最復(fù)雜的互動(dòng)是什么?背后的技術(shù)難點(diǎn)在于?

  欒青:目前數(shù)字人最常用的,一個(gè)是人機(jī)交互的界面模塊,用來生成視頻、直播,以人性化的方式去展示信息和內(nèi)容。

  隨著大模型的突破,現(xiàn)在到了“輔助駕駛”階段。因?yàn)榇竽P蜕傻膬?nèi)容還需要人去審閱、調(diào)整,就不是“自動(dòng)駕駛”,還是“輔助駕駛”。這在L3和L4之間,能生成完整內(nèi)容,但還需要修正?,F(xiàn)在常用的短視頻和直播領(lǐng)域,就在L3和L4之間,是最大規(guī)模的應(yīng)用。

  另一個(gè)客服類場(chǎng)景應(yīng)用更偏L4階段,達(dá)到信息級(jí)別的交互。比如說現(xiàn)在打開工商銀行APP,切換為數(shù)字人模式,所有業(yè)務(wù)可以直接在APP里去和數(shù)字人客服交互。這個(gè)場(chǎng)景的體驗(yàn)是L4級(jí),但智能性還有一定差距,所以數(shù)字人下一步想達(dá)到線發(fā)展,還需要技術(shù)的突破。

  包括現(xiàn)在大模型比以前厲害很多,不像以前是傻的,現(xiàn)在很聰明。但是情感類的互動(dòng),提供情緒價(jià)值還是蹩腳,沒有自然到怎么溝通都分辨不出來。

  這種技術(shù)的突破有三點(diǎn)要做,一是數(shù)字人需要跟行業(yè)更深入結(jié)合。在行業(yè)領(lǐng)域里的知識(shí)、習(xí)慣、技術(shù)信息,還需要專業(yè)性大模型幫助理解。

  數(shù)據(jù)打通之外,第二步是接口打通。比如,操作理解了要做這件事,系統(tǒng)能不能真正去做到?辦一張信用卡,如果沒有連接銀行辦信用卡的接口,就拿不到實(shí)體信用卡,這就需要接口打通。

  這兩點(diǎn)做到了,還有需要考慮的地方。比如數(shù)字人現(xiàn)在可以做醫(yī)療建議,但不能真正開藥。從邏輯上,從權(quán)責(zé)上,不能做。數(shù)字人目前在某些行業(yè)里,只能給建議,不能實(shí)操。

  現(xiàn)在行業(yè)達(dá)到了千億級(jí)參數(shù),等到GPT 4的時(shí)候,可能到萬億級(jí)參數(shù),數(shù)字人可以更全面地在情緒價(jià)值方面更自然地互動(dòng)。目前還不清楚這個(gè)階段需要通過什么方式達(dá)成,是修改網(wǎng)絡(luò)結(jié)構(gòu),還是增加算力和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù),這是現(xiàn)在還在不斷研究的核心突破點(diǎn)。

  欒青:是模型里的節(jié)點(diǎn)數(shù),可以認(rèn)為是模擬大腦的神經(jīng)元,人腦應(yīng)該在萬億級(jí)。所以按理論來講,目前的GPT 4已經(jīng)達(dá)到了人腦的參數(shù)級(jí)別。但從智能角度來講,和人腦還有差距。

  紅星新聞?dòng)浾撸荷虦榻B,AI數(shù)字人主要應(yīng)用于虛擬偶像、虛擬客服和超級(jí)助手三個(gè)方向,現(xiàn)在依然如此嗎?

  欒青:這三大應(yīng)用場(chǎng)景是前幾年數(shù)字人最多的應(yīng)用,其實(shí)今天,數(shù)字人最大的應(yīng)用是短視頻和直播內(nèi)容生成。

  現(xiàn)在很多短視頻,大家并不知道是數(shù)字人制作的。比如女主播在直播間里,展示漢堡王的招牌套餐;招聘電工的短視頻等等。還有一些專業(yè)人士,律師、醫(yī)生、老師都有使用數(shù)字人來生成一些內(nèi)容。

  4、5年前,制作一個(gè)數(shù)字人所需數(shù)據(jù)量比較大,一般要十幾個(gè)小時(shí)的視頻素材,同時(shí)需要滿足多角度和動(dòng)作的要求,制作完成后會(huì)發(fā)現(xiàn)效果僵硬。當(dāng)時(shí)有許多電視臺(tái)在日常新聞報(bào)道中,使用數(shù)字人主播,尤其是突發(fā)型事件報(bào)道,很有價(jià)值。不過因?yàn)橹谱麟y度和成本的限制,無法在普通大眾營銷場(chǎng)景下推廣,難以形成規(guī)模效應(yīng)。

  現(xiàn)在大模型突破后,數(shù)字人的制作變得容易許多,十幾秒的素材就可以制作一個(gè)數(shù)字人。這兩年,技術(shù)在不斷提升,去年、前年還要三五分鐘,今年一兩分鐘、甚至幾十秒都可以。

  表現(xiàn)包括可不可以自由做動(dòng)作?能不能跳舞?沒有錄入的動(dòng)作能不能更豐富?能不能直接AI生成數(shù)字人,不用找人錄,就沒有版權(quán)問題。

  最近也常說可不可以讓數(shù)字人在任何設(shè)備上跑起來?現(xiàn)在很多還是在好一點(diǎn)的硬件設(shè)備跑,或者在云端跑,客戶覺得太貴了,可不可以在他自己的手機(jī)上跑?

  背后的技術(shù)支持包括芯片適配,性能優(yōu)化。技術(shù)推向產(chǎn)品化的過程,就是不斷適用于更多場(chǎng)景,更復(fù)雜的條件。說到底還是考驗(yàn)AI視頻生成的復(fù)雜度問題,這也是我認(rèn)為人工智能下一個(gè)要過的坎。

  欒青:現(xiàn)在經(jīng)常有電影導(dǎo)演跟我說,什么時(shí)候數(shù)字人能實(shí)現(xiàn)劇本出來就生成影片?

  現(xiàn)在一些所謂的數(shù)字人出演,還只是“換臉”,就是人類演完,把臉畫綠幕摳掉。這樣其實(shí)并沒有節(jié)省成本,是噱頭。我覺得行業(yè)真正應(yīng)該做的,是讓一些內(nèi)容徹底AI化,縮短制作時(shí)間,降低試錯(cuò)成本。

  目前電影級(jí)的數(shù)字人還面臨很大的挑戰(zhàn),我們也在和一些明星做初步嘗試,發(fā)現(xiàn)在短視頻、短劇領(lǐng)域有希望,但真正的高質(zhì)量屏幕還沒有突破。目前在為動(dòng)畫電影做努力,通過人工智能技術(shù),將真人內(nèi)容轉(zhuǎn)化成具體風(fēng)格的動(dòng)畫,我覺得短時(shí)間內(nèi)這是最有希望的。


本文由:捕魚大作戰(zhàn)機(jī)械公司提供