GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了
機(jī)器之心報(bào)道
編輯:吳昕
(資料圖片僅供參考)
「GPT-4 的參數(shù)量高達(dá) 100 萬億?!瓜嘈藕芏嗳诉€記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實(shí)這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」
實(shí)際上,許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個(gè)萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。
雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案,但他背后的 OpenAI 團(tuán)隊(duì)一直對 GPT-4 的真實(shí)參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。
直到最近,這個(gè)謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。
喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說,它采用了由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合將其說了出來。
「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng),」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時(shí)間更長,效果已經(jīng)遞減。因此,他們采用了八個(gè)專家模型來提高性能?!怪劣谶@個(gè)混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。
為什么 OpenAI 對此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。
對于未來的趨勢,他認(rèn)為,人們會(huì)訓(xùn)練規(guī)模較小的模型,并通過長時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計(jì)算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個(gè) LLaMA 集合來對抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評論區(qū)留言。
責(zé)任編輯:
關(guān)鍵詞:
相關(guān)閱讀
-
GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小...
在采訪中,他談到了GPT-4,稱GPT-4其實(shí)是一個(gè)混合模型。具體來說,它采 -
校長說丨三江學(xué)院校長吳中江:加快建設(shè)...
眼下,又是一年畢業(yè)季,也是2023年高考志愿填報(bào)之際。6月23日,在綠意 -
TB應(yīng)用授權(quán)在哪里(淘寶應(yīng)用授權(quán)干什么用)
TB應(yīng)用授權(quán)在哪里,以手機(jī)端為例,手機(jī)淘寶上暫時(shí)沒有授權(quán)管理這一欄目 -
neccs官網(wǎng)登錄入口_neccs
1、寒假先把四級弄好。2、去賽才網(wǎng)下載往年試題做一做。3、每天都要保 -
代工廠全面撤出,越南一季度下崗105萬人...
據(jù)外媒報(bào)道,由于訂單大幅下滑,知名運(yùn)動(dòng)品牌耐克、阿迪達(dá)斯的供貨商, -
殊庭
1、殊庭,讀音shūtíng,漢語詞語。2、意思是異域,指仙人的居處。 -
北京二手房市場最新消息_北京二手房市場
北京二手房市場最新消息,北京二手房市場這個(gè)很多人還不知道,現(xiàn)在讓我 -
樺川縣:“碼上誠信”亮出助農(nóng)惠企新名...
為進(jìn)一步拓展“碼上誠信”應(yīng)用領(lǐng)域場景,規(guī)范市場經(jīng)營秩序,保護(hù)消... -
王楊:黃金下跌繼續(xù),早盤1937繼續(xù)干空...
黃金當(dāng)前跌勢延續(xù),反彈不過此前1940的盤整壓力,早盤1937繼續(xù)干空,看 -
MyBatis-Plus 實(shí)現(xiàn)動(dòng)態(tài)字段排序 今日熱議
場景 雖然前端能根據(jù)返回的數(shù)組進(jìn)行對字段的排序,但也僅局限于實(shí)現(xiàn) -
環(huán)球熱訊:天璣曲面屏之王!vivo X90s上...
6月22日消息,vivo京東自營店顯示,vivoX90s已上架接受預(yù)約,新品提供 -
世界今亮點(diǎn)!內(nèi)蒙古自治區(qū)達(dá)拉特旗發(fā)布...
達(dá)拉特旗氣象臺2023年06月21日16時(shí)06分發(fā)布高溫黃色預(yù)警信號:預(yù)計(jì)達(dá)拉 -
環(huán)球看熱訊:烏蘭布和沙漠的綠色傳奇—...
風(fēng)從這里吹過,卷起黃沙,曾留下沙害和貧窮,也記錄了波瀾壯闊的治沙傳 -
世界今日訊!俄羅斯稱美國正擴(kuò)充駐敘利...
敘利亞政府指責(zé)美國駐軍侵犯敘主權(quán)、頻繁盜采敘石油并搶奪糧食 -
三維激光掃描儀說明書(三維激光掃描儀...
來為大家解答以上問題,三維激光掃描儀說明書,三維激光掃描儀原理很多 -
看點(diǎn):亞少賽u17小組墊底出局,中國足球...
2023年亞少賽(U17亞洲杯)在泰國春武里舉行,中國男足名宿楊晨作為主 -
【環(huán)球速看料】真正見過世面的女人,往...
可一個(gè)真正見過世面的女人呢,在巔峰的時(shí)候從來不會(huì)焦躁,她知道為以后 -
意外加息50基點(diǎn)!英國央行會(huì)比美聯(lián)儲走...
市場預(yù)計(jì),英國央行基準(zhǔn)利率將在年底左右達(dá)到6%的峰值,若如此將創(chuàng)下20 -
資訊推薦:協(xié)會(huì)動(dòng)態(tài) | 6月19日,我會(huì)領(lǐng)...
點(diǎn)擊藍(lán)字關(guān)注我們6月19日,“鏈接世界預(yù)鑒未來”——全球溯源中心系... -
今日最新!白開水里加枳實(shí),只需1杯,胃...
胃脹痛大家應(yīng)該都經(jīng)歷過,一股氣頂?shù)奈浮⒛c子,竄到哪哪疼,撐的肚皮像