“買個菜不用開坦克去”！全球AI浪潮開始聚焦“小而美”

瀟湘2024-07-10 16:26

在全球范圍內(nèi)，人工智能軍備競賽最初的起點是追求“大”：巨型模型在海量的數(shù)據(jù)上進(jìn)行訓(xùn)練，試圖模仿具有人類智能水平的人工智能。

然而如今，大量科技巨頭和初創(chuàng)企業(yè)正在開始考慮縮小AI軟件的規(guī)模，使其更便宜、更快速、更專業(yè)……

這類AI軟件被稱為小型語言模型(SLM)或中型語言模型，使用較少的數(shù)據(jù)進(jìn)行訓(xùn)練，通常專為特定任務(wù)而設(shè)計。

作為對比，那些知名的大型語言模型(LLM)，如OpenAI的GPT-4，開發(fā)成本超過1億美元，訓(xùn)練的參數(shù)達(dá)到了逾1萬億。而較小的語言模型則通常在較窄的數(shù)據(jù)集上進(jìn)行訓(xùn)練——例如，可能僅僅聚焦于法律問題上，其訓(xùn)練成本往往可能不到1000萬美元，參數(shù)不到100億。較小的模型也將消耗較少的算力，因此響應(yīng)每個查詢的成本也較低。

近幾個月來，微軟就正在大力宣傳其名為“Phi”輕量級AI模型系列。微軟首席執(zhí)行官Satya Nadella表示，這些模型的大小只有OpenAI的ChatGPT免費模型的1/100，而執(zhí)行許多任務(wù)的效果卻幾乎一樣好。

微軟首席商務(wù)官Yusuf Mehdi表示，“我認(rèn)為，我們越來越有理由相信，未來將是一個由不同(大小)模型組成的世界。”

Mehdi稱，微軟是全球首批在生成式人工智能上押注數(shù)十億美元的大型科技公司之一。而我們也很快意識到，人工智能的運營成本比公司最初預(yù)計的要高。

微軟最近還推出了新型的AI筆記本電腦，搭載數(shù)十個人工智能模型進(jìn)行搜索和圖像生成。這些模型需要用到的數(shù)據(jù)非常少，可以在終端設(shè)備上運行，而不需要像ChatGPT那樣訪問龐大的基于云端的數(shù)據(jù)中心。

谷歌以及人工智能初創(chuàng)公司Mistral、Anthropic和Cohere今年也發(fā)布了更小的模型。蘋果在六月份公布該公司的AI路線圖時，也計劃使用小型模型，這樣就可以完全在手機(jī)上運行軟件，使其更為快捷方便、也更為安全。

就連一直處于大型模型模型浪潮前沿的OpenAI，也在5月發(fā)布了其旗艦?zāi)Ｐ偷男掳姹綠PT-4o，并稱該模型運營成本更低。一位發(fā)言人OpenAI表示，該公司對未來發(fā)布更小的模型持開放態(tài)度。

AI模型浪潮開始聚焦“小而美”

對于許多任務(wù)來說——比如匯總文檔或生成圖像，大型語言模型如今顯得可能會有些“奢侈”。一些行業(yè)人士將此形容為“相當(dāng)于開著坦克去買菜”。

目前從事區(qū)塊鏈技術(shù)研究的Illia Polosukhin是2017年谷歌一篇開創(chuàng)性論文的作者之一，該論文為當(dāng)前的生成式人工智能熱潮奠定了基礎(chǔ)。Polosukhin近來就表示，單單計算“2+2”不應(yīng)該需要進(jìn)行無數(shù)次運算。

事實上，從財務(wù)成本的考量來看，在生成式人工智能技術(shù)的回報尚不明確的情況下，企業(yè)和消費者也一直在尋找以更低成本運行AI的方法。

位于以色列特拉維夫的人工智能公司AI21 Labs的聯(lián)合創(chuàng)始人Yoav Shoham稱，由于只需使用較少的算力，在許多情況下，小型模型回答問題的成本僅為大型語言模型的六分之一。如果你要進(jìn)行數(shù)十萬甚至數(shù)百萬次回答，使用大模型在經(jīng)濟(jì)上其實行不通。

當(dāng)前的關(guān)鍵在于，如何更有效地將這些較小的模型集中在一組數(shù)據(jù)上，如內(nèi)部通信、法律文件或銷售數(shù)字，以執(zhí)行撰寫電子郵件等特定任務(wù)——這一訓(xùn)練過程被稱為微調(diào)(Fine-tuning)。通過微調(diào)，可以讓小型模型在執(zhí)行這些任務(wù)時與大型語言模型一樣有效，而成本只是大型模型的一小部分。

初創(chuàng)公司Snorkel AI的聯(lián)合創(chuàng)始人Alex Ratner表示，“讓這些更小、更專業(yè)的模型在這些更枯燥但更重要的領(lǐng)域工作，是目前人工智能的前沿領(lǐng)域。”

Snorkel AI目前的業(yè)務(wù)范圍包括幫助企業(yè)定制人工智能模型。

企業(yè)用戶也正轉(zhuǎn)向小模型？

在企業(yè)用戶端，信用評級公司益百利近來已將其用于金融咨詢和客戶服務(wù)的AI聊天機(jī)器人，從大語言模型轉(zhuǎn)向了小語言模型。

益百利首席數(shù)據(jù)官Ali Khan表示，在公司內(nèi)部數(shù)據(jù)上進(jìn)行訓(xùn)練時，小型模型的表現(xiàn)與大型模型不相上下，而成本僅為大型模型的一小部分。他表示，這些小模型可以針對一個明確的問題領(lǐng)域和一系列任務(wù)進(jìn)行特定訓(xùn)練。

Salesforce人工智能部門主管Clara Shih則表示，這些小模型的響應(yīng)速度相比大模型也更快。

Shih稱，“使用大型模型你會付出過高的成本并且有延遲問題。有時候也根本用不著。”

值得一提的是，在開始向小語言模型轉(zhuǎn)變的同時，諸多AI巨頭大型語言模型的迭代速度也在放緩。

自O(shè)penAI去年發(fā)布GPT 4(與之前的模型GPT 3.5相比，功能有了顯著提升)以來，還沒有新的迭代模型(GPT 5)發(fā)布。研究人員認(rèn)為，造成這種情況的原因包括用于訓(xùn)練的高質(zhì)量新數(shù)據(jù)稀缺。

這一趨勢也讓人們開始更為關(guān)注小模型。領(lǐng)導(dǎo)Phi模型項目的微軟公司高管塞Sébastien Bubeck表示，“現(xiàn)在正是大家都在等待的一個小間歇期，這會讓人們的注意力轉(zhuǎn)向，他們會想，‘好吧，我們還能不能讓這些東西更高效？’”

目前，還不清楚這種迭代停滯是暫時的，還是遭遇了一個更為棘手的技術(shù)瓶頸問題。但是，小型語言模型的大量涌現(xiàn)，仍說明了人工智能正在從科幻小說般的夢幻演示，演變成了不那么令人興奮的商業(yè)現(xiàn)實。

當(dāng)然，許多公司并沒有完全放棄大型語言模型。蘋果已宣布將在其Siri助手中加入ChatGPT，以執(zhí)行撰寫電子郵件等更復(fù)雜的任務(wù)。微軟表示，其最新版的Windows也將集成OpenAI的最新模型。不過，兩家公司都只是將OpenAI集成作為其整體人工智能方案的一部分，而顯然并沒有把所有的籌碼都押注于此。

轉(zhuǎn)載來源：財聯(lián)社作者：瀟湘

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【瀟湘】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議