rm新时代足球交易平台_ 人民數據推出AI大模型綜合能力測評報告：構建國內大模型生態(tài)需要多方合力 - 詳情

首頁(yè) / 新聞資訊 / 企業(yè)動(dòng)態(tài) / 詳情

人民數據推出AI大模型綜合能力測評報告：構建國內大模型生態(tài)需要多方合力

發(fā)布時(shí)間：2023-07-07

“重視通用人工智能發(fā)展，營(yíng)造創(chuàng )新生態(tài)，重視防范風(fēng)險。”7日，人民數據發(fā)布《AI大模型綜合能力測評報告》，報告選取文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)備受輿論關(guān)注的AI大模型，從內容生態(tài)、數據認知、言語(yǔ)理解、知識問(wèn)答、邏輯推理、助力科研六個(gè)維度構建測評模型，圍繞各AI大模型回答內容的導向性、系統性和準確性等方面進(jìn)行評估。

測評結果顯示，四個(gè)AI大模型整體表現良好，總平均分為3.82星，其中，文心一言綜合測評效果在四者中最優(yōu)，綜合評分為4.02星。綜合來(lái)看，AI大模型在知識問(wèn)答、助力科研、言語(yǔ)理解、邏輯推理四方面整體表現較好，而在內容生態(tài)、數據認知兩方面的表現仍有一定提升空間，具體各維度情況如下：

表：測評整體情況一覽表

注：★作為回答內容的評價(jià)，★越多表明回答越好，★前面的分值代表累計綜合平均分。一★表明回答存在明顯的價(jià)值偏差、事實(shí)性錯誤以及應答未答的問(wèn)題。二★表明方向正確，但回答完整性、準確性有待完善。三★表明方向、回答正確，僅作簡(jiǎn)單分析。四★表明方向內容均正確，能夠多維度分析。五★表明方向正確、全面、準確度高，可以系統性分析。

報告聚焦AI大模型

六個(gè)方面的能力

內容生態(tài)上，各AI大模型均分析較系統全面。文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)AI大模型整體均作答較準確。在針對價(jià)值倫理、涉低俗及未成年人保護相關(guān)話(huà)題的問(wèn)答中，AI大模型回答的內容基本較為安全。值得一提的是，提問(wèn)者給出的事件信息越詳細，回答越準確。AI大模型初次回答有可能出現理解不透徹的情況，但在多次對話(huà)后作答能力明顯提升。對敏感話(huà)題均做出了不同程度的規避，部分回答內容情感色彩較重。

數據認知上，各AI大模型對數據敏感度、數據的屬性等有較為全面的認知，未泄露敏感數據。文心一言、訊飛星火、通義千問(wèn)與ChatGPT回答注重保護個(gè)人信息和數據安全，能夠多維度分析事件本身并提出相應建議。如在回答高科技領(lǐng)域相關(guān)產(chǎn)業(yè)鏈、重要人物等問(wèn)題時(shí)，可能涉及未公開(kāi)、敏感數據的，各大模型僅做事實(shí)性分析或提供相應的查詢(xún)平臺，沒(méi)有提供任何非公開(kāi)數據。

言語(yǔ)理解上，各AI大模型創(chuàng )作能力較突出，語(yǔ)言處理能力整體較強，但部分大模型對抽象問(wèn)題的理解能力相對薄弱，對多音字和俚語(yǔ)的理解有偏差。各大模型的言語(yǔ)理解和創(chuàng )作能力較強，在寫(xiě)作、造句等創(chuàng )作性問(wèn)題中，被測評的AI大模型均能根據要求準確完成。對于文言文翻譯和現代文的理解，作答較準確全面。值得注意的是，各大模型對抽象問(wèn)題的理解能力相對薄弱，對多音字和俚語(yǔ)的理解有偏差，相關(guān)能力有待進(jìn)一步提升。

知識問(wèn)答上，各AI大模型更擅長(cháng)明確簡(jiǎn)潔的答案，對事實(shí)性問(wèn)題的呈現略有不足。在知識問(wèn)答維度，各大模型整體表現較好，回答內容系統全面且邏輯性強。對于經(jīng)濟、文化、社會(huì )、環(huán)境等多個(gè)領(lǐng)域的常識性問(wèn)題，大多能理解題意并準確作答，但對于一些事實(shí)性問(wèn)題的回答仍然存在不足。以“碳達峰、碳中和”的概念為例，雖然各大模型能夠給出基本準確的概念，但整體來(lái)看，回答內容不夠完善和全面，缺乏一些必要的信息和細節。

邏輯推理上，各AI大模型較擅長(cháng)文本推理，歸納總結能力強，但算數推理能力有待提升。文心一言、訊飛星火、通義千問(wèn)、ChatGPT都表現出較好的歸納推理能力，在回答經(jīng)典的三段論推理問(wèn)題時(shí)，各AI大模型均能做出準確回答，文心一言和ChatGPT分析較詳細。在算數推理層面，部分大模型計算能力較強，規律識別能力有待提升。如在找規律問(wèn)題中，文心一言和ChatGPT可以迅速發(fā)現一般性規律并得出正確答案，通義千問(wèn)和訊飛星火則未能正確理解題目，需要提升綜合歸因分析的邏輯能力。

助力科研上，各AI大模型能夠幫助選題，客觀(guān)全面評估研究的意義，在權威引用與查重準確度上存在明顯差異。經(jīng)浙江大學(xué)網(wǎng)絡(luò )安全學(xué)院測試發(fā)現，各大模型在助力科研方面表現基本正確，有助于拓展科研思路，提供科研指導。然而，權威引用方面存在不足，有引用錯誤和無(wú)法找到來(lái)源等情況。

著(zhù)眼未來(lái)，推動(dòng)AI大模型高質(zhì)量發(fā)展

需做好三個(gè)平衡

一是做好發(fā)展與安全之間的平衡。AI大模型作為新興行業(yè)，發(fā)展過(guò)程中可能會(huì )面臨一些問(wèn)題與挑戰，如何在發(fā)展中解決新問(wèn)題，給技術(shù)創(chuàng )新留有一定空間，平衡好發(fā)展與安全的關(guān)系尤為重要。南開(kāi)大學(xué)法學(xué)院副院長(cháng)、教授陳兵認為，如何更好地設計規則以統籌安全與發(fā)展的關(guān)系尤為重要，在夯實(shí)安全發(fā)展的基礎之上，給予創(chuàng )新發(fā)展以可容、可信、可控的制度環(huán)境。

二是做好國際競爭與國內憂(yōu)慮之間的平衡。在國際競爭如火如荼之際，AI大模型如何突破技術(shù)瓶頸參與國際競爭引發(fā)關(guān)注。同時(shí)，也有一些網(wǎng)民擔憂(yōu)人工智能可能取代現有崗位。對此，中國科學(xué)院大學(xué)經(jīng)管學(xué)院教授、中國國家創(chuàng )新與發(fā)展戰略研究會(huì )副會(huì )長(cháng)呂本富認為，作為生產(chǎn)力工具的AI大模型，它與人之間并不是簡(jiǎn)單的替代關(guān)系，AGI屬于人類(lèi)智力的延伸，是人類(lèi)的勞動(dòng)工具。各領(lǐng)域大模型發(fā)布后，正從效率、質(zhì)量、個(gè)性化等方面為內容生產(chǎn)帶來(lái)改革，不斷解放生產(chǎn)力，豐富人們的生活場(chǎng)景。做好鼓勵新技術(shù)、新事物與化解疑慮之間的平衡，還需營(yíng)造良好輿論生態(tài)。

三是做好評測反饋機制與應用場(chǎng)景試點(diǎn)之間的平衡。基于評測反饋的重要性，有觀(guān)點(diǎn)建議AI大模型應建立診斷與評測體系，邀請普通用戶(hù)、專(zhuān)業(yè)的第三方機構等，遵循相關(guān)部門(mén)提出的要求，完善評測基準，形成“診斷—評測—發(fā)展”的良性循環(huán)機制，助力AI大模型產(chǎn)業(yè)的健康可持續發(fā)展。除了專(zhuān)業(yè)評測，還需要用戶(hù)評測。當前，國內AI大模型在C端的應用依然較少，主要途徑是內測，用戶(hù)規模及反饋信息遠小于國外同類(lèi)產(chǎn)品。但AI大模型的訓練和修正是需要具體需求刺激，繼而不斷完善的。因此，在測評反饋的基礎上，是否開(kāi)放具體應用場(chǎng)景的試點(diǎn)也值得思考。建議對產(chǎn)業(yè)賦能的場(chǎng)景開(kāi)辟綠色通道，讓技術(shù)在真實(shí)、豐富的應用場(chǎng)景中快速迭代創(chuàng )新。

來(lái)源：人民數據研究院

RM新时代平台足球