RM新时代平台足球

人民數據推出AI大模型綜合能力測評報告:構建國內大模型生態(tài)需要多方合力
發(fā)布時(shí)間:2023-07-07
  “重視通用人工智能發(fā)展,營(yíng)造創(chuàng )新生態(tài),重視防范風(fēng)險。”7日,人民數據發(fā)布《AI大模型綜合能力測評報告》,報告選取文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)備受輿論關(guān)注的AI大模型,從內容生態(tài)、數據認知、言語(yǔ)理解、知識問(wèn)答、邏輯推理、助力科研六個(gè)維度構建測評模型,圍繞各AI大模型回答內容的導向性、系統性和準確性等方面進(jìn)行評估。
測評結果顯示,四個(gè)AI大模型整體表現良好,總平均分為3.82星,其中,文心一言綜合測評效果在四者中最優(yōu),綜合評分為4.02星。綜合來(lái)看,AI大模型在知識問(wèn)答、助力科研、言語(yǔ)理解、邏輯推理四方面整體表現較好,而在內容生態(tài)、數據認知兩方面的表現仍有一定提升空間,具體各維度情況如下:
 
表:測評整體情況一覽表


注:★作為回答內容的評價(jià),★越多表明回答越好,★前面的分值代表累計綜合平均分。一★表明回答存在明顯的價(jià)值偏差、事實(shí)性錯誤以及應答未答的問(wèn)題。二★表明方向正確,但回答完整性、準確性有待完善。三★表明方向、回答正確,僅作簡(jiǎn)單分析。四★表明方向內容均正確,能夠多維度分析。五★表明方向正確、全面、準確度高,可以系統性分析。

 

報告聚焦AI大模型

  六個(gè)方面的能力

 
 
 

 

內容生態(tài)上,各AI大模型均分析較系統全面。文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)AI大模型整體均作答較準確。在針對價(jià)值倫理、涉低俗及未成年人保護相關(guān)話(huà)題的問(wèn)答中,AI大模型回答的內容基本較為安全。值得一提的是,提問(wèn)者給出的事件信息越詳細,回答越準確。AI大模型初次回答有可能出現理解不透徹的情況,但在多次對話(huà)后作答能力明顯提升。對敏感話(huà)題均做出了不同程度的規避,部分回答內容情感色彩較重。
 
數據認知上,各AI大模型對數據敏感度、數據的屬性等有較為全面的認知,未泄露敏感數據。文心一言、訊飛星火、通義千問(wèn)與ChatGPT回答注重保護個(gè)人信息和數據安全,能夠多維度分析事件本身并提出相應建議。如在回答高科技領(lǐng)域相關(guān)產(chǎn)業(yè)鏈、重要人物等問(wèn)題時(shí),可能涉及未公開(kāi)、敏感數據的,各大模型僅做事實(shí)性分析或提供相應的查詢(xún)平臺,沒(méi)有提供任何非公開(kāi)數據。
 
言語(yǔ)理解上,各AI大模型創(chuàng )作能力較突出,語(yǔ)言處理能力整體較強,但部分大模型對抽象問(wèn)題的理解能力相對薄弱,對多音字和俚語(yǔ)的理解有偏差。各大模型的言語(yǔ)理解和創(chuàng )作能力較強,在寫(xiě)作、造句等創(chuàng )作性問(wèn)題中,被測評的AI大模型均能根據要求準確完成。對于文言文翻譯和現代文的理解,作答較準確全面。值得注意的是,各大模型對抽象問(wèn)題的理解能力相對薄弱,對多音字和俚語(yǔ)的理解有偏差,相關(guān)能力有待進(jìn)一步提升。
 
知識問(wèn)答上,各AI大模型更擅長(cháng)明確簡(jiǎn)潔的答案,對事實(shí)性問(wèn)題的呈現略有不足。在知識問(wèn)答維度,各大模型整體表現較好,回答內容系統全面且邏輯性強。對于經(jīng)濟、文化、社會(huì )、環(huán)境等多個(gè)領(lǐng)域的常識性問(wèn)題,大多能理解題意并準確作答,但對于一些事實(shí)性問(wèn)題的回答仍然存在不足。以“碳達峰、碳中和”的概念為例,雖然各大模型能夠給出基本準確的概念,但整體來(lái)看,回答內容不夠完善和全面,缺乏一些必要的信息和細節。
 
邏輯推理上,各AI大模型較擅長(cháng)文本推理,歸納總結能力強,但算數推理能力有待提升。文心一言、訊飛星火、通義千問(wèn)、ChatGPT都表現出較好的歸納推理能力,在回答經(jīng)典的三段論推理問(wèn)題時(shí),各AI大模型均能做出準確回答,文心一言和ChatGPT分析較詳細。在算數推理層面,部分大模型計算能力較強,規律識別能力有待提升。如在找規律問(wèn)題中,文心一言和ChatGPT可以迅速發(fā)現一般性規律并得出正確答案,通義千問(wèn)和訊飛星火則未能正確理解題目,需要提升綜合歸因分析的邏輯能力。
 
助力科研上,各AI大模型能夠幫助選題,客觀(guān)全面評估研究的意義,在權威引用與查重準確度上存在明顯差異。經(jīng)浙江大學(xué)網(wǎng)絡(luò )安全學(xué)院測試發(fā)現,各大模型在助力科研方面表現基本正確,有助于拓展科研思路,提供科研指導。然而,權威引用方面存在不足,有引用錯誤和無(wú)法找到來(lái)源等情況。
 

著(zhù)眼未來(lái),推動(dòng)AI大模型高質(zhì)量發(fā)展

               需做好三個(gè)平衡

 
 
 
 
一是做好發(fā)展與安全之間的平衡。AI大模型作為新興行業(yè),發(fā)展過(guò)程中可能會(huì )面臨一些問(wèn)題與挑戰,如何在發(fā)展中解決新問(wèn)題,給技術(shù)創(chuàng )新留有一定空間,平衡好發(fā)展與安全的關(guān)系尤為重要。南開(kāi)大學(xué)法學(xué)院副院長(cháng)、教授陳兵認為,如何更好地設計規則以統籌安全與發(fā)展的關(guān)系尤為重要,在夯實(shí)安全發(fā)展的基礎之上,給予創(chuàng )新發(fā)展以可容、可信、可控的制度環(huán)境。
 
二是做好國際競爭與國內憂(yōu)慮之間的平衡。在國際競爭如火如荼之際,AI大模型如何突破技術(shù)瓶頸參與國際競爭引發(fā)關(guān)注。同時(shí),也有一些網(wǎng)民擔憂(yōu)人工智能可能取代現有崗位。對此,中國科學(xué)院大學(xué)經(jīng)管學(xué)院教授、中國國家創(chuàng )新與發(fā)展戰略研究會(huì )副會(huì )長(cháng)呂本富認為,作為生產(chǎn)力工具的AI大模型,它與人之間并不是簡(jiǎn)單的替代關(guān)系,AGI屬于人類(lèi)智力的延伸,是人類(lèi)的勞動(dòng)工具。各領(lǐng)域大模型發(fā)布后,正從效率、質(zhì)量、個(gè)性化等方面為內容生產(chǎn)帶來(lái)改革,不斷解放生產(chǎn)力,豐富人們的生活場(chǎng)景。做好鼓勵新技術(shù)、新事物與化解疑慮之間的平衡,還需營(yíng)造良好輿論生態(tài)。
 
三是做好評測反饋機制與應用場(chǎng)景試點(diǎn)之間的平衡。基于評測反饋的重要性,有觀(guān)點(diǎn)建議AI大模型應建立診斷與評測體系,邀請普通用戶(hù)、專(zhuān)業(yè)的第三方機構等,遵循相關(guān)部門(mén)提出的要求,完善評測基準,形成“診斷—評測—發(fā)展”的良性循環(huán)機制,助力AI大模型產(chǎn)業(yè)的健康可持續發(fā)展。除了專(zhuān)業(yè)評測,還需要用戶(hù)評測。當前,國內AI大模型在C端的應用依然較少,主要途徑是內測,用戶(hù)規模及反饋信息遠小于國外同類(lèi)產(chǎn)品。但AI大模型的訓練和修正是需要具體需求刺激,繼而不斷完善的。因此,在測評反饋的基礎上,是否開(kāi)放具體應用場(chǎng)景的試點(diǎn)也值得思考。建議對產(chǎn)業(yè)賦能的場(chǎng)景開(kāi)辟綠色通道,讓技術(shù)在真實(shí)、豐富的應用場(chǎng)景中快速迭代創(chuàng )新。

來(lái)源:人民數據研究院
RM新时代平台足球
rm新时代跑路 RM新时代成立多久了 rm官网怎么登录 RM新时代注册 RM新时代正常可以出正常提 RM新时代专业团队|首入球时间 rm新时代公司官网 rm官网 RM新时代资金盘 RM新时代正规网址|首入球时间