世界實時:模型“日日新”!中文語言大模型“商量2.0”多個評測基準綜合表現(xiàn)超ChatGPT
近日,商湯科技公布了自研中文語言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三個權威大語言模型評測基準的成績。根據(jù)評測結果,“商量2.0”在三個測試集中表現(xiàn)均領先ChatGPT,實現(xiàn)了我國語言大模型研究的重要突破。
截至目前,已有近千家企業(yè)客戶通過申請,應用和體驗“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內容創(chuàng)作、代碼生成等綜合能力,并且“商量2.0”還在服務客戶過程中,持續(xù)實現(xiàn)著快速迭代和提升,以及知識的實時更新。
“商量2.0”綜合能力超ChatGPT
【資料圖】
商湯科技公布的評測結果,選取了全球三大權威語言模型測評基準MMLU、AGIEval、C-Eval,結果顯示“商量2.0”在三個測試集中表現(xiàn)均領先ChatGPT,部分已十分接近GPT-4的水平。
MMLU是由美國加州大學伯克利分校、哥倫比亞大學、芝加哥大學及伊利諾伊大學厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務語言理解的評測基準,涵蓋了科學、技術、工程、數(shù)據(jù),人文、社會科學等領域的57個科目,難度從初級水平到高級專業(yè)水平,考驗世界知識和解決問題的能力。在該評測中,“商量2.0”綜合得分為68.6,超過了ChatGPT(67.3分),落后GPT-4(86.4分)。
AGIEval是由微軟研究院發(fā)布的,專門用于評估基礎模型在人類認知和問題解決相關任務中表現(xiàn)出的一般能力,從而實現(xiàn)模型智能和人類智能的對比。該基準選取20種面向普通人類考生的官方、公開、高標準往常和資格考試,包括普通大學入學考試(中國高考和美國SAT考試)、法學入學考試、數(shù)學競賽、律師資格考試、國家公務員考試等。在該評測中,“商量2.0”測出49.91的分數(shù),再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中一項評測子集中,“商量2.0”以58.5分僅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集,包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別。面對C-Eval評測基準,“商量2.0”拿到了66.1的分數(shù),在參評的18個大模型中,僅次于GPT-4(68.7分),全面領先ChatGPT、Claude、Bloom等一眾海內外大模型。
技術創(chuàng)新+應用落地 推動能力持續(xù)提升
今年4月,商湯正式發(fā)布“商湯日日新”大模型體系,以及自研中文語言大模型“商量”。截至6月,全球范圍內正式發(fā)布的大語言模型已超過40款,其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。
在“百花齊放”的市場格局中,通過對比成績與表現(xiàn),可以了解各大預言模型的特點與差異,并且直觀地了解每個大語言模型當前的智能水平。目前“商量2.0”實現(xiàn)了對GPT-3.5超越,并且隨著商業(yè)化落地的推進,在眾多行業(yè)、場景中發(fā)揮令人滿意的作用。
例如在需要大量文案工作的場景中,“商量2.0”可以協(xié)助處理各類文章、報告、信函、產品信息、IT信息等,進行編輯、重寫、總結、分類、提取信息、制作Q&A等,有效提高企業(yè)員工的生產效率。在客戶服務場景中,“商量 2.0”還可以扮演許多不同的企業(yè)角色,如銀行客服、給孩子講故事的繪本老師等等,并進行順暢的交流和互動,提升客戶體驗。
此外,“商量2.0”還擁有廣泛的知識儲備,能夠結合企業(yè)自身所在行業(yè)的專有數(shù)據(jù),非常高效地打造滿足企業(yè)需要的高階知識庫,幫助實現(xiàn)更智能化的知識庫管理?!吧塘?.0”還是高水平的AI代碼助手,能夠極大幫助提高開發(fā)效率,實現(xiàn)新的“二八定律”——80%的代碼由AI生成,20%則由人工生成。
據(jù)悉,商湯大語言模型能力的提升源于更多高質量中文數(shù)據(jù)的訓練學習,得益于團隊在底層大模型技術上的不斷創(chuàng)新。商湯團隊在訓練階段采用自研的一系列增強復雜推理能力的方法,以及更加有效的反饋學習機制,讓大模型增強推理能力的同時,減輕了傳統(tǒng)大模型的幻覺問題。
新民晚報記者郜陽
【延伸閱讀】商湯大模型體系“日日新”帶來什么驚喜?和ChatGPT之類比“會有一點差距,但可以很快追上?!?/p>
關鍵詞:
相關閱讀
-
世界實時:模型“日日新”!中文語言大...
根據(jù)評測結果,“商量2 0”在三個測試集中表現(xiàn)均領先ChatGPT,實現(xiàn)... -
每日速讀!問鼎天下_關于問鼎天下的介紹
1、問鼎天下是須生寫的架空歷史小說。2、連載于縱橫中文網(wǎng)。本文到此結 -
西媒:巴薩今晚將與京多安簽約,年薪900...
直播吧6月22日訊RAC1消息,巴薩今晚將與京多安簽約,年薪900萬歐。巴薩 -
76場演出、12個夏令營、3個音樂馬拉松等...
一年一度的中山公園音樂堂“八喜·打開藝術之門——2023暑期藝術節(jié)... -
福建二建成績查詢時間2023 全球今熱點
福建二建成績查詢時間2023由二級建造師考試欄目提供,查找更多考試報名 -
從2699元跌至1929元,256GB+1.6億像素+...
重視產品高性價比的人,基本上都是米粉,因為小米旗下產品性價比幾乎是 -
杭州一男子在綠化帶內迷路3天 吃野花喝...
6月5日說起,當日,市民趙先生急匆匆跑到蕭山寧圍派出所求助,稱自己的 -
中華1951細20支煙價格-環(huán)球微速訊
平時很少接觸中華香煙的,所以對于中華的煙售價多少錢并不是非常的清楚 -
科學幼小銜接,高埂學校助力孩子有準備...
6月20日,邛崍市高埂學校組織開展了“讓孩子有準備地進入小學”幼小... -
全球熱消息:華為5G殺回來了?余承東:假!
昨天有條消息傳得沸沸揚揚。有外媒表示:高通將要對華為恢復5G芯片供應 -
【千年榮昌?歷史文化周】瀨溪河上劃槳...
6月20日,在瀨溪河金科禮悅東方河段,參加千年榮昌·歷史文化周“迎... -
每日資訊:日照路吉綜合開發(fā)有限公司開...
粽香飄愛意,囊香寓平安。端午來臨之際,日照路吉公司聯(lián)合兩城鎮(zhèn)西張家 -
浙江發(fā)布今年首個山洪紅色預警
浙江省水利廳、省氣象局2023年6月22日8時聯(lián)合發(fā)布山洪災害預警:根據(jù)省 -
研究生英國留學有哪些學校比較好
《研究生英國留學有哪些學校比較好》由熱門專業(yè)網(wǎng)發(fā)布,主要內容:英國擁 -
【天天速看料】2023水產預制菜行業(yè)規(guī)模...
預制菜是指經(jīng)過洗、切、搭配、加工完成的菜品,采取冷凍或真空等一系列 -
世界微速訊:通貨膨脹的影響有哪些簡答...
通貨膨脹的影響有哪些簡答,通貨膨脹的影響有哪些這個很多人還不知道, -
寧德時代:擬使用不超過人民幣78億元閑...
寧德時代(300750):擬使用不超過人民幣78億元閑置募集資金進行現(xiàn)金管理 -
環(huán)球通訊!天津美達菲學校高中部2023招...
天津美達菲學校高中部2023招生政策招生范圍及報名條件面向天津市,具有 -
三好男人_關于三好男人的介紹 熱消息
1、三好男人,就像三好學生一樣,三好男人是德智體兼佳的男人,并且性 -
分享com 超值分享匯
1、網(wǎng)站好像沒有。2、新浪微博有好多分享的,,比較像你說的網(wǎng)站,,有