對話(huà)面壁智能李大海：中國對端側模型的探索全球領(lǐng)先

任曉寧2024-06-16 12:24

經(jīng)濟觀(guān)察網(wǎng) 記者任曉寧 “完全沒(méi)有想到會(huì )以這種方式出圈，挺惶恐的。”6月14日，面壁智能首席執行官李大海在接受經(jīng)濟觀(guān)察網(wǎng)采訪(fǎng)時(shí)，提到了此前火爆一時(shí)的斯坦福大學(xué)學(xué)生抄襲面壁智能旗下大模型的事件。他認為，從全球范圍看，目前中國在端側模型、開(kāi)源模型等領(lǐng)域都有創(chuàng )新的地方。

5月29日，多模態(tài)大模型Llama3-V在開(kāi)源社區走紅，其開(kāi)發(fā)者是美國斯坦福大學(xué)學(xué)生組成的AI團隊，他們聲稱(chēng)可以用500美元的價(jià)格訓練出對標GPT-4V（美國AI公司OpenAI旗下大模型）多模態(tài)能力的模型。

第二天，Llama3-V模型被網(wǎng)友指出涉嫌抄襲中國的端側模型MiniCPM-Llama3-V 2.5，這件事在國外AI圈引發(fā)關(guān)注，在國內也多次登上微博熱搜。最終斯坦福大學(xué)學(xué)生選擇道歉并刪除Llama3-V模型。

MiniCPM系列模型由中國大模型創(chuàng )業(yè)公司面壁智能開(kāi)發(fā)。這家公司此前只在A(yíng)I圈內知名，但因被抄襲一事名聲大噪。李大海在接受經(jīng)濟觀(guān)察網(wǎng)采訪(fǎng)時(shí)，講述了該事件的來(lái)龍去脈。他認為，該事件說(shuō)明，中國的大模型技術(shù)在一些領(lǐng)域已經(jīng)處于全球領(lǐng)先位置。

面壁智能主要做端側模型。相比互聯(lián)網(wǎng)大廠(chǎng)和其他大模型創(chuàng )業(yè)公司主要發(fā)力的云側大模型，端側模型一般參數較小，比如MiniCPM的第一款模型，只有20億參數，但可以實(shí)現文本翻譯、知識問(wèn)答、代碼編程等大模型能力，也有多模態(tài)能力。由于成本低、參數小，端側模型更適合在手機端、個(gè)人電腦（PC）端和智能硬件端使用。

與已經(jīng)開(kāi)啟“百模大戰”的云側大模型市場(chǎng)相比，端側模型市場(chǎng)的國內參與者較少。李大海解釋?zhuān)姹谥悄芩龅氖拢窃谕瑯拥臅r(shí)間、同等參數量的條件下，把模型知識壓縮的效率做到極致，把更多的高質(zhì)量數據壓縮進(jìn)一個(gè)更小更優(yōu)的模型中。

面壁智能成立于2022年8月，創(chuàng )始團隊主要來(lái)自清華大學(xué)自然語(yǔ)言處理實(shí)驗室，聯(lián)合創(chuàng )始人劉知遠是清華大學(xué)計算機系長(cháng)聘副教授、博士生導師，李大海則擔任過(guò)知乎首席技術(shù)官。

2023年至今，面壁智能完成了兩輪融資。去年4月，知乎、智譜AI對其投資數千萬(wàn)元。今年4月，面壁智能完成了新一輪數億元融資，由春華創(chuàng )投、華為哈勃領(lǐng)投，北京市人工智能產(chǎn)業(yè)投資基金等跟投。

以下為對話(huà)實(shí)錄：

經(jīng)濟觀(guān)察網(wǎng)：之前斯坦福大學(xué)學(xué)生抄襲面壁智能模型的事件，是否說(shuō)明當前中美大模型的差距縮小了？

李大海：在最大、最聰明的模型層面，我們距離美國整體還有比較大的距離。這些差距是由于資金能力、算力水平、算力投入等造成的，我們需要正視這些現實(shí)。

但中國在很多領(lǐng)域也有自己的創(chuàng )新和探索。比如對端側模型的探索，我們在全球范圍內都算是比較領(lǐng)先的，所以才會(huì )出現被抄襲的事情。此外，在開(kāi)源模型這個(gè)領(lǐng)域，國內有很多同行在不同層面都做出了創(chuàng )新，比如阿里通義千問(wèn)對開(kāi)源模型的貢獻就比較大。

經(jīng)濟觀(guān)察網(wǎng)：今年是AI應用元年，很多大模型產(chǎn)品正在落地，出現了各式各樣的應用。你們所研發(fā)的端側模型，是否也已經(jīng)開(kāi)始落地？現在有哪些應用場(chǎng)景？

李大海：在PC、手機、智能汽車(chē)，以及一些前沿的智能終端領(lǐng)域，都有端側模型落地的場(chǎng)景。我們最近在和一家機器人公司合作，他們研發(fā)的是外形像寵物貓的情感類(lèi)機器人，主要提供給愛(ài)貓的用戶(hù)。我們的端側模型與機器人結合在一起，能讓它更加懂用戶(hù)，能更好地與用戶(hù)進(jìn)行交流，給用戶(hù)帶來(lái)很多情緒價(jià)值。

經(jīng)濟觀(guān)察網(wǎng)：為什么這家機器人公司要和你們的端側模型合作，而不是和其他大模型公司合作？

李大海：因為在這樣的場(chǎng)景中，端側模型有比較大的優(yōu)勢。其他云側大模型也可以用在機器人之中，但端側模型的成本更低、可靠性更強，因為它不需要依賴(lài)于網(wǎng)絡(luò )。即使斷網(wǎng)后，用戶(hù)也可以和這只機器貓交流。

相比云側大模型，端側模型參數規模要小一些，它不可能做所有的事情，這是它的劣勢。但是它有非常好的隱私性，也有更強的可靠性，比如在飛機上、在隧道里或在野外，人們都可以放心大膽地使用它。

經(jīng)濟觀(guān)察網(wǎng)：ChatGPT（OpenAI旗下聊天機器人）等大模型產(chǎn)品當下已經(jīng)被廣泛應用。端側模型技術(shù)進(jìn)展到了什么程度，可以落地應用了嗎？

李大海：在一些特定的場(chǎng)景下，比如嵌入到寵物機器人中與人類(lèi)進(jìn)行交流的場(chǎng)景，端側模型已經(jīng)是可用的了。但它現在還沒(méi)到大規模使用的時(shí)候。

關(guān)于端側模型什么時(shí)候可以大規模應用到手機、PC中的問(wèn)題，我想提供一個(gè)大模型維度的摩爾定律。我們發(fā)現無(wú)論是開(kāi)源模型還是閉源模型，都呈現出每8個(gè)月左右參數規模下降一半，但模型性能維持不變的現象。有兩個(gè)例子可以說(shuō)明這個(gè)現象，比如OpenAI幾年前發(fā)布了1750億參數的GPT-3模型，今年我們用20億參數的模型，就已經(jīng)可以實(shí)現同樣效果。另外，我們不久前發(fā)布的面壁小鋼炮MiniCPM-Llama3-V 2.5模型，使用80億參數，能達到甚至超過(guò)業(yè)界多模態(tài)王者GPT-4V的多模態(tài)性能水平。

參數規模下降、性能維持不變，說(shuō)明大模型的知識密度提升了。隨著(zhù)大模型知識密度的提升和端側算力的提升，我相信我們能用2年左右做出等同于GPT-4水平的端側模型。到時(shí)候端側模型就能大范圍使用了。

經(jīng)濟觀(guān)察網(wǎng)：大模型公司的競爭已經(jīng)非常激烈，價(jià)格戰也正在開(kāi)啟。面壁智能在端側模型目前有領(lǐng)先優(yōu)勢，你們怎么能保證自己一直領(lǐng)先？

李大海：天下武功，唯快不破，在快速變化的環(huán)境里面更是如此。創(chuàng )業(yè)公司必須有足夠快的自我迭代速度。我們公司大的戰略方向是做端側模型，在這個(gè)大方向上我們會(huì )有定力。但在具體執行戰略上，我們會(huì )不斷升級認知、提升方法論、提高迭代速度，我覺(jué)得這是最重要的事情。

相比其他公司，面壁智能很早就看到了端側模型的價(jià)值，并把所有的資源都往上堆，目前也做出了一些成績(jì)。前兩天蘋(píng)果開(kāi)發(fā)者大會(huì )也在強調端側模型，這說(shuō)明行業(yè)里更多同行也認可了這個(gè)方向，這也證明了這個(gè)方向的正確性。