模型“日日新”：商湯“商量SenseChat 2.0”多個(gè)評(píng)測(cè)基準(zhǔn)綜合表現(xiàn)超ChatGPT

2023-06-21 23:12:36 來(lái)源：上海證券報(bào)·中國(guó)證券網(wǎng)

(相關(guān)資料圖)

商湯科技近日公布了自研中文語(yǔ)言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)的成績(jī)。根據(jù)評(píng)測(cè)結(jié)果，“商量SenseChat 2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT，實(shí)現(xiàn)了我國(guó)語(yǔ)言大模型研究的重要突破。

截至目前，已有近千家企業(yè)客戶通過(guò)申請(qǐng)，應(yīng)用和體驗(yàn)“商量SenseChat 2.0”超強(qiáng)的長(zhǎng)文本理解、邏輯推理、多輪對(duì)話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力，并且“商量SenseChat 2.0”還在服務(wù)客戶過(guò)程中，持續(xù)實(shí)現(xiàn)著快速迭代和提升，以及知識(shí)的實(shí)時(shí)更新。

商湯科技公布的評(píng)測(cè)結(jié)果中，選取了全球三大權(quán)威語(yǔ)言模型測(cè)評(píng)基準(zhǔn)MMLU、AGIEval、C-Eval，結(jié)果顯示“商量SenseChat 2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT，部分已十分接近GPT4的水平。

其中，MMLU是由美國(guó)加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語(yǔ)言理解的評(píng)測(cè)基準(zhǔn)，涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù)，人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目，難度從初級(jí)水平到高級(jí)專業(yè)水平，考驗(yàn)世界知識(shí)和解決問(wèn)題的能力。

在該評(píng)測(cè)中，“商量SenseChat 2.0”綜合得分為68.6，遠(yuǎn)超GLM-130B（45.7分）的得分，同時(shí)還超過(guò)了ChatGPT（67.3分）、LLaMA-65B（63.5分）僅落后GPT-4（86.4分），位居第二。

AGIEval是由微軟研究院發(fā)布的，專門用于評(píng)估基礎(chǔ)模型在人類認(rèn)知和問(wèn)題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力，從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。

在該評(píng)測(cè)中，“商量SenseChat 2.0”測(cè)出49.91的分?jǐn)?shù)，遙遙領(lǐng)先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），僅次于GPT-4的56.4分。在其中的AGIEval（GK）評(píng)測(cè)子集中，“商量SenseChat 2.0”以58.5分全面領(lǐng)先，僅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集，包含了13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。

面對(duì)C-Eval評(píng)測(cè)基準(zhǔn)，“商量SenseChat 2.0”拿到了66.1的分?jǐn)?shù)，在參評(píng)的18個(gè)大模型中，僅次于GPT-4（68.7分），全面領(lǐng)先ChatGPT等一眾海內(nèi)外大模型。其中，C-Eval（Hard）子評(píng)測(cè)集，是選擇了8個(gè)具有挑戰(zhàn)性的數(shù)據(jù)、物理和化學(xué)科目，進(jìn)一步考核大語(yǔ)言模型的推理能力，“商量SenseChat 2.0”也表現(xiàn)居于前列。

據(jù)悉，今年4月，商湯正式發(fā)布“商湯日日新SenseNova”大模型體系，以及自研中文語(yǔ)言大模型“商量SenseChat”。截至6月，全球范圍內(nèi)正式發(fā)布的大語(yǔ)言模型已超過(guò)40款，其中由中國(guó)廠商、高校、科研院所等發(fā)布的大語(yǔ)言模型近20款。

關(guān)鍵詞：

日韩免费特黄一二三区_最新中文字幕av无码专区_免费无码成人片在线观看软件_日韩av无码免费大片bd_尤物99国产成人精品视频_国产99久久九九精品无码性色_日韩av免费无码一区二区三区_超碰老司机_日木无码_五月激情宗合

模型“日日新”：商湯“商量SenseChat 2.0”多個(gè)評(píng)測(cè)基準(zhǔn)綜合表現(xiàn)超ChatGPT

相關(guān)閱讀

模型“日日新”：商湯“商量SenseChat ...

快資訊丨海內(nèi)外藝術(shù)家“相遇”古都大同...

當(dāng)前快訊:新股覆蓋研究：信音電子

中國(guó)電力建設(shè)發(fā)展大會(huì)賦能電力高質(zhì)量發(fā)...

【快播報(bào)】進(jìn)入第三年的“滬惠保”，可...

觀察：廣西啟動(dòng)重大氣象災(zāi)害（暴雨）Ⅲ...

探索泰坦尼克號(hào)遺址潛艇失蹤三天氧氣...

今日訊！愛(ài)嬰室：截至2023年6月20日，公...

證監(jiān)會(huì)公布最新券商“白名單” 共計(jì)31...

馬斯克談AI如何毀滅人類：操縱輿論挑...

基于EMP2 V3平臺(tái)/采用全新設(shè)計(jì) 全新DS...

寵物狗有跳蚤怎么辦蘋(píng)果醋怎么用

全球觀點(diǎn)：招聯(lián)逾期被起訴了怎么應(yīng)訴？...

全球微速訊：匯安成長(zhǎng)優(yōu)選混合增聘基金...

2023四川科技館端午節(jié)開(kāi)閉館時(shí)間

第十一屆中德經(jīng)濟(jì)技術(shù)合作論壇在德國(guó)柏...

停航三年今復(fù)航，成都到伊斯坦布爾可直...

鞍鋼股份：主要受鋼材價(jià)格同比大幅降低...

航空工業(yè)哈飛：復(fù)材精準(zhǔn)制造的“水晶球...

杰瑞股份：終止境外發(fā)行全球存托憑證事項(xiàng)

業(yè)界

模型“日日新”：商湯“商量SenseChat 2.0”多個(gè)評(píng)測(cè)基準(zhǔn)綜合表現(xiàn)超ChatGPT

相關(guān)閱讀

業(yè)界

要聞