觀點:MosaicML 推出 30B 模型 — 挑戰(zhàn) LLaMA、Falcon 和 GPT
MosaicML正在推出其第二個開源大型語言模型(LLM),稱為MPT-30B,這是繼五月份首次推出的較小的MPT-7B模型之后。
為了討論新模型及其對開發(fā)人員的意義,我采訪了MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao。他之前的創(chuàng)業(yè)公司是Nervana,這是一家深度學(xué)習(xí)公司,于2016年被英特爾收購,所以他最近在人工智能行業(yè)并不重要。
顧名思義,MPT-30B是一個300億參數(shù)模型。該公司聲稱它在質(zhì)量上超過了OpenAI的GPT-3,盡管其參數(shù)數(shù)量約為1/6(GPT-3有1750億個)。“這意味著MPT-30B更容易在本地硬件上運(yùn)行,并且部署推理的成本要低得多,”該公司表示。
(相關(guān)資料圖)
MosaicML vs. LLaMA 和 Falcon
MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每個2,000個令牌)在更長的序列(最多8,000個令牌)上進(jìn)行訓(xùn)練。根據(jù)MosaicML的說法,“它旨在在實踐中處理更長的序列,使其非常適合數(shù)據(jù)密集型企業(yè)應(yīng)用程序。
實際上,這意味著用戶可以輸入更長的提示。事實上,MosaicML之前的7B參數(shù)模型帶有一個微調(diào)選項,稱為MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文長度”。
“更長的上下文[長度]意味著更靈活的用法,”Rao說?!拔覀儗⒂形⒄{(diào)的版本,特別適合寫散文——寫更長的輸出。
MosaicML平臺;通過其公司博客
Rao想要強(qiáng)調(diào)的另一個區(qū)別是它的注意力機(jī)制。當(dāng)谷歌在2017年發(fā)表其著名的關(guān)于變壓器技術(shù)的論文《注意力是你所需要的一切》(Attention Is All You Need)時,它指出,“多頭自我注意”是為AI提供突破的訓(xùn)練機(jī)制(OpenAI隨后借用這一見解來構(gòu)建GPT)。
“注意力是變壓器模型的內(nèi)在部分,”Rao解釋道?!斑@實際上使他們能夠看到一個句子,一個段落或整個文本語料庫的聯(lián)系。
Rao 告訴我,MosaicML 使用了一種名為“閃光注意力”的技術(shù),這是 2022 年一篇學(xué)術(shù)論文的主題。
“它使你能夠更快地進(jìn)行推理和訓(xùn)練 - Falcon和LLaMA都沒有這個,”他說?!耙虼耍瑥挠嬎愕慕嵌葋砜?,我們的方法實際上效率更高。
Rao補(bǔ)充說,新模型更適合企業(yè)使用,因為它“大小合適”以“適應(yīng)實際硬件的限制”。他指出,深度學(xué)習(xí)GPU通常使用40-80千兆字節(jié)的內(nèi)存。根據(jù)Rao的說法,開源的Falcon LLM正在與這種限制作斗爭。
“奇怪的是,他們發(fā)布的獵鷹模型是一個400億參數(shù)模型。這不太適合 80 GB GPU,因為它正好靠在邊緣。
他補(bǔ)充說,它自己的300億個參數(shù)模型更小,以便更好地針對GPU進(jìn)行優(yōu)化?!八]有真正損害我們的性能,它將讓你非常輕松地適應(yīng)80-gGPU,”他說。
Rao聲稱其新的30B參數(shù)模型在性能上也優(yōu)于LLaMA和Falcon。
“由于我們的效率方法,我們實際上訓(xùn)練的計算比LLaMA和Falcon少。所以訓(xùn)練實際上要便宜得多。但我們基本上是平價的。這取決于評估指標(biāo)——比如,對于編碼,這個模型實際上比這兩個模型做得更好。在其他事情上,情況更糟。
當(dāng)然,LLaMA和Falcon背后的人可能會對此提出異議。但是很難獨立驗證MosaicML的說法,因為Rao談到的三個開源LLM項目(MosaicML,LLaMA或Falcon)都沒有使用斯坦福大學(xué)的HELM措施進(jìn)行測試。
MosaicML vs. OpenAI
那么MosaicML的模型與OpenAI的GPT-4相比如何呢?Rao 承認(rèn) GPT-4 在大多數(shù)方面的能力方面都更勝一籌。然而,他重申,MosaicML的模型提供了更長的上下文長度,這允許獨特的用例 - 例如生成F. Scott Fitzgerald的著名小說“了不起的蓋茨比”的尾聲。(題外話:作為一名前英國文學(xué)專業(yè)的學(xué)生,這是我最不想從法學(xué)碩士那里得到的東西!
Rao說,像GPT-4這樣的大型模型的主要挑戰(zhàn)是運(yùn)行它們的高成本,這使得大多數(shù)企業(yè)都不切實際。MosaicML還專注于為具有特定數(shù)據(jù)(包括敏感數(shù)據(jù))的公司提供服務(wù),以微調(diào)其特定行業(yè)的模型。
在用例方面,Rao解釋說,醫(yī)療保健和銀行業(yè)等行業(yè)可以從MosaicML解釋和匯總大量數(shù)據(jù)的能力中受益。例如,在醫(yī)學(xué)領(lǐng)域,該模型可以解釋實驗室結(jié)果,并通過分析各種輸入來提供對患者病史的見解。
Rao強(qiáng)調(diào)了開源模型在這些場景中的重要性,因為健康(或?qū)嶋H上是財務(wù))數(shù)據(jù)的本質(zhì)需要在防火墻后面進(jìn)行安全處理,而不是通過API將其發(fā)送給OpenAI之類的公司。
開發(fā)人員如何使用 MosaicML
我問開發(fā)人員如何開始使用MosaicML的平臺。Rao回答說,MosaicML提供了各種選擇,具體取決于開發(fā)人員的需求和專業(yè)知識。對于簡單的集成,他們提供了一個類似于其他公司(如OpenAI)的API,允許開發(fā)人員輕松地將MosaicML的模型整合到他們的前端應(yīng)用程序中。他聲稱,與其他提供商的類似規(guī)模的模型相比,MosaicML的模型更具成本效益。
開發(fā)人員還可以選擇通過使用自己的數(shù)據(jù)對其進(jìn)行微調(diào)來自定義 MosaicML 模型。他們可以下載模型、進(jìn)行修改,并使用自定義版本創(chuàng)建自己的 API。
對于擁有大量數(shù)據(jù)的高級開發(fā)人員,Rao表示,MosaicML的工具可用于從頭開始預(yù)訓(xùn)練自定義模型,并使用MosaicML的平臺為它們提供服務(wù)。
然后我問了MosaicML與流行的第三方工具(如LangChain)的兼容性。
“你通過LangChain獲得的所有工具都可以與我們的API一起使用,”他回答道。“真正酷的是,您可以在與我們一起構(gòu)建的自定義模型之上使用這些工具。因此,我們基本上在定制方面為開發(fā)人員提供了令人難以置信的能力——甚至擁有整個模型。您進(jìn)入該模型的所有數(shù)據(jù)(權(quán)重,所有內(nèi)容)都?xì)w您所有,因此可以完全自定義。這就是我們實現(xiàn)的目標(biāo)。有了這些API提供商(如OpenAI),你得到的是你所得到的——零定制。
團(tuán)隊開源
盡管在我們的采訪中談到了LLaMA和Falcon,但最終Rao認(rèn)為他們都在同一個團(tuán)隊中 - 而像OpenAI這樣的專有平臺才是真正的競爭對手。
“這使權(quán)力回到了企業(yè)開發(fā)人員手中,”他說,關(guān)于開源LLM,“將所有這些放在一個集中的地方,在那里你可以得到你得到的東西,這是一個很大的負(fù)面結(jié)果。
他還堅持認(rèn)為,開源LLM正在“縮小與這些閉源模型的差距”。他承認(rèn),也許還沒有完全,但他認(rèn)為開放的LLM已經(jīng)“跨越了這些模型實際上非常有用的門檻”。
MosaicML推出30B模型 - 接受LLaMA,F(xiàn)alcon和GPT的帖子首先出現(xiàn)在The New Stack上。
關(guān)鍵詞:
相關(guān)閱讀
-
觀點:MosaicML 推出 30B 模型 — ...
布中考出...
今年南寧中考將于6月24日至26日舉行,南寧市共設(shè)市直考點28個??键c有 -
今日要聞!港股異動 | 美蘭空港(00357)...
美蘭空港(00357)早盤再跌超7%,年內(nèi)累計跌幅超55%。截至發(fā)稿,跌6 53% -
新年送男生什么禮物?邪惡而愉快的“Hoc...
女巫們太棒了!在有人第一次點燃黑色火焰二十九年后,令人愉快的邪 -
全球熱消息:流暢吃雞、加錢升級?買顯...
流暢吃雞、加錢升級?買顯卡小心被這三種話術(shù)騙了 -
張藝謀首部電視劇籌拍,趙麗穎搭檔張嘉...
如今作品產(chǎn)出量最高的一位名導(dǎo)就是張藝謀,平均每年都有一部大熒幕作品 -
人從眾!端午假期 預(yù)計1億人次出行!
多地出行人數(shù)超越2019年,短途游成主角,消費(fèi)復(fù)蘇正在上演!詳情 -
比212個足球場還要大!杭州有一座小島,...
端午假期去哪兒玩?不妨去逛逛湘花島。格桑花、月見草、硫華菊、藍(lán)色矢 -
環(huán)球即時:周公解夢:夢見這4件事情,近...
夢見小孩受傷,感到憂愁,如果孩子是自己的子女,預(yù)示可能要有變故或疾 -
天天熱文:非洲觀察丨美元霸權(quán)危害非洲...
非洲國家的高通脹、貨幣貶值的數(shù)據(jù)不斷刷新紀(jì)錄,一些國家甚至出現(xiàn) -
“泰坦”號深海潛水器發(fā)生內(nèi)爆
美國海岸警衛(wèi)隊22日說,此前在考察“泰坦尼克”號郵輪殘骸途中失蹤... -
【足協(xié)杯】晉級16強(qiáng)!梅州客家隊點球淘...
文 羊城晚報全媒體記者柴智6月22日,中國足協(xié)杯上演第三輪賽事,梅州客 -
南京汽車產(chǎn)業(yè)迭代升級
以整車制造為龍頭,化傳統(tǒng)汽車產(chǎn)業(yè)優(yōu)勢為新能源汽車集群優(yōu)勢南京汽車產(chǎn) -
setvolume32.dll如何修復(fù)
SetVolume32 dll是一個Windows系統(tǒng)文件,用于控制聲音的音量。如果該文 -
世界今日報丨端午好戲惠民生!數(shù)十位戲...
視頻加載中 縱覽客戶端訊(河北日報記者王育民通訊員李超)名家名段 -
土豆怎樣炸才會外脆里嫩? 土豆這個吃...
說到炸土豆條,大家都不陌生。畢竟土豆這種高淀粉食物油炸后非常香脆。 -
天天新動態(tài):28天過會 A股近13年最大IP...
【28天過會A股近13年最大IPO來了先正達(dá)千億商譽(yù)何解?】28天閃電過會! -
突發(fā)!遼寧發(fā)生惡性滅門案,慘不忍睹,...
俗話說血濃于水,作為兄弟姐妹,他們是除了父母、愛人、孩子之外,可以 -
高考之后如何提高自己?Epic員工給你暑...
高考之后如何提高自己?Epic員工給你暑假建議! -
鄭氏點銀:黃金洗盤打壓破底,今日1926...
鄭氏點銀黃金洗盤打壓破底今日1926是節(jié)點壓力回顧昨日行情走勢及出現(xiàn)的