模型“日日新”:商湯“商量SenseChat 2.0”多個(gè)評(píng)測(cè)基準(zhǔn)綜合表現(xiàn)超ChatGPT
(相關(guān)資料圖)
商湯科技近日公布了自研中文語(yǔ)言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)的成績(jī)。根據(jù)評(píng)測(cè)結(jié)果,“商量SenseChat 2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT,實(shí)現(xiàn)了我國(guó)語(yǔ)言大模型研究的重要突破。
截至目前,已有近千家企業(yè)客戶通過(guò)申請(qǐng),應(yīng)用和體驗(yàn)“商量SenseChat 2.0”超強(qiáng)的長(zhǎng)文本理解、邏輯推理、多輪對(duì)話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量SenseChat 2.0”還在服務(wù)客戶過(guò)程中,持續(xù)實(shí)現(xiàn)著快速迭代和提升,以及知識(shí)的實(shí)時(shí)更新。
商湯科技公布的評(píng)測(cè)結(jié)果中,選取了全球三大權(quán)威語(yǔ)言模型測(cè)評(píng)基準(zhǔn)MMLU、AGIEval、C-Eval,結(jié)果顯示“商量SenseChat 2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT4的水平。
其中,MMLU是由美國(guó)加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語(yǔ)言理解的評(píng)測(cè)基準(zhǔn),涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù),人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,難度從初級(jí)水平到高級(jí)專業(yè)水平,考驗(yàn)世界知識(shí)和解決問(wèn)題的能力。
在該評(píng)測(cè)中,“商量SenseChat 2.0”綜合得分為68.6,遠(yuǎn)超GLM-130B(45.7分)的得分,同時(shí)還超過(guò)了ChatGPT(67.3分)、LLaMA-65B(63.5分)僅落后GPT-4(86.4分),位居第二。
AGIEval是由微軟研究院發(fā)布的,專門用于評(píng)估基礎(chǔ)模型在人類認(rèn)知和問(wèn)題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。
在該評(píng)測(cè)中,“商量SenseChat 2.0”測(cè)出49.91的分?jǐn)?shù),遙遙領(lǐng)先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中的AGIEval(GK)評(píng)測(cè)子集中,“商量SenseChat 2.0”以58.5分全面領(lǐng)先,僅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集,包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。
面對(duì)C-Eval評(píng)測(cè)基準(zhǔn),“商量SenseChat 2.0”拿到了66.1的分?jǐn)?shù),在參評(píng)的18個(gè)大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT等一眾海內(nèi)外大模型。其中,C-Eval(Hard)子評(píng)測(cè)集,是選擇了8個(gè)具有挑戰(zhàn)性的數(shù)據(jù)、物理和化學(xué)科目,進(jìn)一步考核大語(yǔ)言模型的推理能力,“商量SenseChat 2.0”也表現(xiàn)居于前列。
據(jù)悉,今年4月,商湯正式發(fā)布“商湯日日新SenseNova”大模型體系,以及自研中文語(yǔ)言大模型“商量SenseChat”。截至6月,全球范圍內(nèi)正式發(fā)布的大語(yǔ)言模型已超過(guò)40款,其中由中國(guó)廠商、高校、科研院所等發(fā)布的大語(yǔ)言模型近20款。
關(guān)鍵詞:
相關(guān)閱讀
-
模型“日日新”:商湯“商量SenseChat ...
商湯科技近日公布了自研中文語(yǔ)言大模型“商量SenseChat2 0”在MMLU、AG -
快資訊丨海內(nèi)外藝術(shù)家“相遇”古都大同...
(記者 胡健)“尋邑·2023大同當(dāng)代藝術(shù)季”21日晚在山西省大同市 -
當(dāng)前快訊:新股覆蓋研究:信音電子
第一時(shí)間提供各大券商研究所報(bào)告,最大程度減少個(gè)人投資者與機(jī)構(gòu)之間信 -
中國(guó)電力建設(shè)發(fā)展大會(huì)賦能電力高質(zhì)量發(fā)...
6月20日,由中國(guó)電力建設(shè)企業(yè)協(xié)會(huì)舉辦的中國(guó)電力建設(shè)發(fā)展大會(huì)在北京召 -
【快播報(bào)】進(jìn)入第三年的“滬惠保”,可...
進(jìn)入第三年的“滬惠保”,可持續(xù)性會(huì)有變化嗎?首席承保這么回應(yīng),保... -
觀察:廣西啟動(dòng)重大氣象災(zāi)害(暴雨)Ⅲ...
央廣網(wǎng)南寧6月21日消息(記者黃月芬)6月21日上午,廣西壯族自治區(qū)氣象 -
探索泰坦尼克號(hào)遺址潛艇失蹤三天 氧氣...
美加兩國(guó)繼續(xù)在北大西洋搜索前往參觀泰坦尼克號(hào)殘骸失蹤的觀光潛艇,但 -
今日訊!愛(ài)嬰室:截至2023年6月20日,公...
愛(ài)嬰室60321406月21日在投資者關(guān)系平臺(tái)上答復(fù)了投資者關(guān)心的問(wèn)題投資者 -
證監(jiān)會(huì)公布最新券商“白名單” 共計(jì)31...
證監(jiān)會(huì)公布最新券商“白名單”共計(jì)31家券商上榜,證監(jiān)會(huì),國(guó)泰君安證... -
馬斯克談AI如何毀滅人類:操縱輿論 挑...
在VivaTech峰會(huì)上,馬斯克警告稱,AI是有史以來(lái)最具顛覆性的技術(shù),人類 -
基于EMP2 V3平臺(tái)/采用全新設(shè)計(jì) 全新DS...
我們從官方渠道獲悉,全新DS4將于7月13日在杭州宣布正式上市。新車基于 -
寵物狗有跳蚤怎么辦 蘋(píng)果醋怎么用
寵物狗,這是很多人都是喜歡養(yǎng)殖的,好看,還好玩,給自己的生活來(lái)一個(gè) -
全球觀點(diǎn):招聯(lián)逾期被起訴了怎么應(yīng)訴?...
在金融市場(chǎng)中,借貸是人們滿足資金需求的常見(jiàn)方式。然而,由于各種原因 -
全球微速訊:匯安成長(zhǎng)優(yōu)選混合增聘基金...
匯安成長(zhǎng)優(yōu)選混合增聘基金經(jīng)理單柏霖柳預(yù)才離任---中國(guó)經(jīng)濟(jì)網(wǎng)北京6月21 -
2023四川科技館端午節(jié)開(kāi)閉館時(shí)間
2023四川科技館端午節(jié)開(kāi)閉館時(shí)間開(kāi)閉館時(shí)間:9:00-17:00(16:00停止入館 -
第十一屆中德經(jīng)濟(jì)技術(shù)合作論壇在德國(guó)柏...
【第十一屆中德經(jīng)濟(jì)技術(shù)合作論壇在德國(guó)柏林舉行】當(dāng)?shù)貢r(shí)間6月20日,第 -
停航三年今復(fù)航,成都到伊斯坦布爾可直...
該航線由四川航空公司執(zhí)行,每周一、三執(zhí)飛。 -
鞍鋼股份:主要受鋼材價(jià)格同比大幅降低...
鞍鋼股份在近期的機(jī)構(gòu)調(diào)研中指出,2023年一季度,中國(guó)鋼鐵行業(yè)下游需求 -
航空工業(yè)哈飛:復(fù)材精準(zhǔn)制造的“水晶球...
小旋風(fēng)在一線,持續(xù)在線。人要精心、智慧。技術(shù)要精益、智能。今天故事 -
杰瑞股份:終止境外發(fā)行全球存托憑證事項(xiàng)
證券時(shí)報(bào)e公司訊,杰瑞股份(002353)6月21日晚間公告,鑒于內(nèi)外部環(huán)境等