GPT-4 是 8x2200 億參數(shù)的混合模型?這個小道消息今天傳瘋了 世界新視野
機器之心報道
(相關(guān)資料圖)
編輯:吳昕
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西。
「GPT-4 的參數(shù)量高達(dá) 100 萬億。」相信很多人還記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?p>實際上,許多人相信并傳播這樣的謠言是因為近年來 AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€錯誤答案,但他背后的 OpenAI 團(tuán)隊一直對 GPT-4 的真實參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報告也沒透露任何信息。
直到最近,這個謎團(tuán)疑似被「天才黑客」喬治霍茲(George Hotz)捅破了。
喬治霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實是一個混合模型。具體來說,它采用了由 8 個專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合將其說了出來?!富旌夏P褪悄阍跓o計可施的時候才會考慮的選項,」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因為無法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時間更長,效果已經(jīng)遞減。因此,他們采用了八個專家模型來提高性能?!怪劣谶@個混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。為什么 OpenAI 對此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個模型」。對于未來的趨勢,他認(rèn)為,人們會訓(xùn)練規(guī)模較小的模型,并通過長時間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個 LLaMA 集合來對抗 GPT-4。還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個由 8 個 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評論區(qū)留言。George Hotz 采訪內(nèi)容。GPT-4 相關(guān)內(nèi)容在 49:00 前后。視頻來源:https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s
參考鏈接:https://twitter.com/soumithchintala/status/1671267150101721090
THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
關(guān)鍵詞:
相關(guān)閱讀
-
GPT-4 是 8x2200 億參數(shù)的混合模型?...
機器之心報道編輯:吳昕GeorgeHotz:除了蘋果之外,大部分公司保密的原 -
異世界奇妙龍物語
楔子 龍回應(yīng)了你的“龍龍,XXX,火,XX,燒,一起。”巨大的洞窟中... -
米體:紐卡準(zhǔn)備6000萬歐報價托納利,切...
直播吧6月21日訊據(jù)《米蘭體育報》報道,紐卡斯?fàn)枩?zhǔn)備6000萬歐元報價托 -
上海戲劇學(xué)院2023年應(yīng)屆畢業(yè)生都去哪兒了?
“北京人民藝術(shù)劇院馮遠(yuǎn)征院長給我發(fā)來短信,今年北京人藝2023年應(yīng)... -
滴滴出行九江同日收7罰單 因服務(wù)車輛未...
滴滴出行九江同日收7罰單因服務(wù)車輛未取得合法資質(zhì) -
內(nèi)蒙古新井煤礦事故失聯(lián)者全部遇難
新華社呼和浩特6月21日電(記者王靖)記者21日從內(nèi)蒙古自治區(qū)應(yīng)急管理 -
國會大廈騷亂事件中一使用電擊槍襲警的...
當(dāng)?shù)貢r間6月21日,據(jù)《國會山報》報道,一名叫丹尼爾·羅德里格斯的... -
環(huán)球快資訊丨山東省戒毒管理局舉辦戒毒...
記者欒海明通訊員王邵茹在第36個國際禁毒日到來之際,為充分展現(xiàn)全省司 -
近五年“最火”端午開啟:預(yù)計1億人次出...
預(yù)訂情況來看,飛豬數(shù)據(jù)顯示,在6月初,端午假期首日及前一日的火車票 -
《高德地圖》查看兩個地方的距離教程 ...
高德地圖怎么查兩個地方的距離?有時我們需要知道兩個地點之間的距離具 -
淮安市國產(chǎn)普通化妝品年度報告率達(dá)100%|...
淮安市國產(chǎn)普通化妝品年度報告率達(dá)100%為保障化妝品注冊備案工作順利推 -
擴散|延長運營!調(diào)圖!今起,天津地鐵...
從天津軌道交通集團(tuán)獲悉,為進(jìn)一步滿足廣大市民乘客節(jié)假日出行需求,6 -
奉天子以令不臣原文(奉天子以令不臣)...
奉天子以令不臣原文,奉天子以令不臣這個很多人還不知道,現(xiàn)在讓我們一 -
每日看點!悲傷透露被IG解約!imp相信JKL...
時隔多日,那局比賽的勝負(fù)也引起連鎖反應(yīng),悲傷在粉絲群透露,IG已經(jīng)找 -
全球觀察:梟怎么讀 拼音_梟怎么讀
1、梟的讀音是:xiāo,具體意思如下:勇猛;強悍:~將。2、~騎。3、 -
江西東鄉(xiāng):網(wǎng)箱養(yǎng)殖黃鱔 生態(tài)養(yǎng)殖富農(nóng)
養(yǎng)殖戶正在查看網(wǎng)箱里的黃鱔生長情況。近日,在江西省撫州市東鄉(xiāng)區(qū)楊橋 -
當(dāng)前視點!康希諾董秘回復(fù): 根據(jù)中國證...
康希諾(688185)06月21日在投資者關(guān)系平臺上答復(fù)了投資者關(guān)心的問題。 -
美聯(lián)儲博斯蒂克:此前銀行倒閉所擔(dān)憂的...
每經(jīng)AI快訊,美聯(lián)儲博斯蒂克:此前銀行倒閉所擔(dān)憂的傳染效應(yīng)“并未... -
【環(huán)球新視野】成都有哪些便宜的酒店比...
關(guān)于成都有哪些便宜的酒店比較好點的內(nèi)容,包含成都有哪些酒店比較好, -
昆明一家10人食用,9人中毒!這條云南人...
夏季到來,雨水增多越來越多野生菌破土而出云南人最喜歡的食菌季來了但