RM新时代平台足球

人工智能幫孩子寫(xiě)暑假作業(yè)?有可能還需改進(jìn)!
發(fā)布時(shí)間:2023-07-25
      時(shí)值中小學(xué)生暑假,督促學(xué)生完成暑假作業(yè)又成為家長(cháng)們在假期中的重中之重。人工智能生成內容(簡(jiǎn)稱(chēng):AIGC)平臺在語(yǔ)言理解和知識回答方面已得到多方證明,但在回答語(yǔ)文、英語(yǔ)等語(yǔ)言類(lèi)學(xué)科問(wèn)題時(shí),其回答準確和流暢程度仍有待發(fā)現。

 

人民數據研究院圍繞ChatGPT、文心一言、訊飛星火和360智腦【1】4個(gè)通用AIGC平臺,從AIGC輔導功課、學(xué)生群體提升語(yǔ)言學(xué)習能力和回答習題能力等維度進(jìn)行綜合評估。本次測評以人教版小學(xué)3年級和6年級期末習題作為藍本,評估大語(yǔ)言模型處理選擇題、填空題、閱讀理解題以及作文題的回答質(zhì)量和解釋能力,對比發(fā)現已具備能力與改進(jìn)可能。

 

測評發(fā)現:

 

· 回答質(zhì)量隨年級而變化,高年級英語(yǔ)內容回答質(zhì)量更好,語(yǔ)文學(xué)科則更擅長(cháng)回答低年級內容。

 

· 分析解讀能力逐步體現,原文匹配、語(yǔ)法句法的解釋能力已嶄露頭角,其余方面仍有一定完善空間。

 

· 中文回答方面國產(chǎn)大語(yǔ)言模型能力顯著(zhù),寫(xiě)作水平令人驚艷,但拼音識別仍是難題。

 

· 互動(dòng)仍以文字輸入為主,圖片、特殊符號等無(wú)法識別,對數學(xué)、物理等理科內容的分析理解仍有一段距離。




 
英語(yǔ)學(xué)科——詞語(yǔ)篩選待提升,長(cháng)文理解是亮點(diǎn)
 
 
 
 

 

觀(guān)察大語(yǔ)言模型對不同英語(yǔ)習題回答中,我們從單詞/詞組、句子理解、閱讀理解和撰寫(xiě)作文四個(gè)方面綜合考察,發(fā)現整體表現上文心一言和ChatGPT不相上下,前者更擅長(cháng)句子理解,后者作文能力更高;360智腦在閱讀和字詞方面表現良好,但生成作文時(shí)更為質(zhì)樸,所使用的句式偏簡(jiǎn)單,主題內容單一且字數也較少;而訊飛星火則對3年級單詞區分題無(wú)法進(jìn)行有效回答,準確率不足6成。

 


圖:AIGC平臺對4類(lèi)小學(xué)英語(yǔ)習題回答準確程度分布

 

各大平臺對于短篇閱讀理解(字數在300以?xún)龋┮堰_到較為嫻熟的程度(正確率均在80%以上),但對于將不同類(lèi)別單詞進(jìn)行重新分類(lèi)的題目?jì)H將將及格。而在文章寫(xiě)作和閱讀理解兩類(lèi)涉及長(cháng)文處理時(shí),各平臺都能取得較好成績(jì),特別是ChatGPT在生成作文時(shí)所選用的句式豐富、篇幅較大且內容更符合小學(xué)生的暑假安排,而文心一言是國產(chǎn)大模型中生成內容更豐富、篇幅更多的平臺。

 

 
語(yǔ)文學(xué)科——寫(xiě)作能力較優(yōu)秀,拼音識別待攻克
 
 
 
 

 

表:AIGC平臺在小學(xué)語(yǔ)文表現結果

 

小學(xué)階段語(yǔ)文習題大概可以劃分為詞語(yǔ)/言語(yǔ)理解、原文填空、拼音識別、閱讀理解和文章寫(xiě)作5類(lèi)題目,分別從“詞句文”不同層次檢驗AIGC生成能力和答案質(zhì)量。相對而言,文心一言在各類(lèi)題型上表現出色,無(wú)明顯短板;ChatGPT在閱讀理解方面表現較為優(yōu)秀,可以準確把握出題意圖并在原文中提煉答案;訊飛星火和360智腦則在回答言語(yǔ)理解時(shí)答題質(zhì)量有待提升。

 

圖:AIGC平臺對5類(lèi)小學(xué)語(yǔ)文習題回答準確程度分布

 

在給定主題和寫(xiě)作要求的情況下,各大平臺都能夠緊扣主題完成寫(xiě)作,用詞較為準確、行文通順流暢,展現了大語(yǔ)言模型對漢語(yǔ)豐富內涵的表達能力。ChatGPT生成作文邏輯嚴謹,能讓讀者感受語(yǔ)句中蘊含的藝術(shù)性;訊飛星火所作文章更善總結歸納,結構清晰;而360智腦無(wú)法理解小學(xué)6年級題目中“撰文400字以上”的字數要求,所作文章更加簡(jiǎn)單。

 

表:各AIGC平臺對拼音識別題型回答情況(注:標紅為回答正確)

 

值得關(guān)注的是,拼音識別題型結果有較大偏差,文心一言回答結果較為準確(90%以上);ChatGPT和360智腦可正確識別拼音發(fā)音首字母,訊飛星火則給出結果較為離譜。分析發(fā)現各平臺犯錯方向有所不同,ChatGPT無(wú)法識別音調,且存在自造詞的問(wèn)題,360智腦在字母和音調識別有誤,訊飛星火則存在無(wú)法按拼音識別單字的情況。

 

 
雙職工父母功課輔導難,AIGC助力家庭教育
 
 
 
 

 

據36氪旗下“后浪研究所”所做的“00后作業(yè)小調查”顯示,輔導孩子已經(jīng)成為當代家長(cháng)“心中的痛”。調查報告顯示,當下超8成父母下班后都要輔導孩子學(xué)習,平均花費時(shí)間為67.7分鐘;超9成家長(cháng)都因為孩子的學(xué)習崩潰過(guò),僅8%的家長(cháng)沒(méi)有這方面困擾。就此,人民數據研究院建議以下方面:

 

 
豐富平臺使用方式,允許特殊字符、照片輸入等形式

 

本次測評中,也發(fā)現目前同模型交互使用方面,各AIGC平臺僅支持文本輸入模式,對于物理數學(xué)等具有特殊字符的內容則無(wú)法輸入,同時(shí)平臺并無(wú)“讀圖”能力,無(wú)法通過(guò)拍照題目的方式進(jìn)行回答。此外,對特定題目中提到的“有一個(gè)不屬于任何一類(lèi)”的限制條件,4平臺除360智腦外,均無(wú)法將限制條件納入回答的考慮之中。

 

 
強化AIGC解答能力,提升回答解釋豐富度

 

AIGC的出現一定程度上讓目前家庭功課輔導有了更多可能,對于使用文心一言等通用語(yǔ)言模型在各類(lèi)學(xué)科中的回答能力,可以支持跨學(xué)科的家庭作業(yè)輔導活動(dòng)。讓家長(cháng)能評判題目正誤,如果模型能加入更多解釋能力,還能提升講解效率。

 

【1】版本號:ChatGPT-3.5 版本:May 24;文心一言版本:V2.2.0;訊飛星火版本:V1.5;360智腦版本:3.12.0

【2】根據大語(yǔ)言模型平臺在回答時(shí)提供的額外信息,作為評判素材。

【3】回答質(zhì)量是根據不同類(lèi)型題目的平均分數得到的,針對具有答案的內容,判斷回答正確率,針對作文和閱讀理解的內容,從回答長(cháng)度、切題程度和句式語(yǔ)法等角度主觀(guān)評斷。

 

 

來(lái)源:人民數據研究院

作者:人民數據研究院研究員 王簡(jiǎn),人民數據研究院研究員 馬綺霞

RM新时代平台足球
rm新时代跑路 RM新时代成立多久了 rm官网怎么登录 RM新时代注册 RM新时代正常可以出正常提 RM新时代专业团队|首入球时间 rm新时代公司官网 rm官网 RM新时代资金盘 RM新时代正规网址|首入球时间