人民數據研究院圍繞ChatGPT、文心一言、訊飛星火和360智腦【1】4個(gè)通用AIGC平臺,從AIGC輔導功課、學(xué)生群體提升語(yǔ)言學(xué)習能力和回答習題能力等維度進(jìn)行綜合評估。本次測評以人教版小學(xué)3年級和6年級期末習題作為藍本,評估大語(yǔ)言模型處理選擇題、填空題、閱讀理解題以及作文題的回答質(zhì)量和解釋能力,對比發(fā)現已具備能力與改進(jìn)可能。
測評發(fā)現:
· 回答質(zhì)量隨年級而變化,高年級英語(yǔ)內容回答質(zhì)量更好,語(yǔ)文學(xué)科則更擅長(cháng)回答低年級內容。
· 分析解讀能力逐步體現,原文匹配、語(yǔ)法句法的解釋能力已嶄露頭角,其余方面仍有一定完善空間。
· 中文回答方面國產(chǎn)大語(yǔ)言模型能力顯著(zhù),寫(xiě)作水平令人驚艷,但拼音識別仍是難題。
· 互動(dòng)仍以文字輸入為主,圖片、特殊符號等無(wú)法識別,對數學(xué)、物理等理科內容的分析理解仍有一段距離。

觀(guān)察大語(yǔ)言模型對不同英語(yǔ)習題回答中,我們從單詞/詞組、句子理解、閱讀理解和撰寫(xiě)作文四個(gè)方面綜合考察,發(fā)現整體表現上文心一言和ChatGPT不相上下,前者更擅長(cháng)句子理解,后者作文能力更高;360智腦在閱讀和字詞方面表現良好,但生成作文時(shí)更為質(zhì)樸,所使用的句式偏簡(jiǎn)單,主題內容單一且字數也較少;而訊飛星火則對3年級單詞區分題無(wú)法進(jìn)行有效回答,準確率不足6成。

圖:AIGC平臺對4類(lèi)小學(xué)英語(yǔ)習題回答準確程度分布
各大平臺對于短篇閱讀理解(字數在300以?xún)龋┮堰_到較為嫻熟的程度(正確率均在80%以上),但對于將不同類(lèi)別單詞進(jìn)行重新分類(lèi)的題目?jì)H將將及格。而在文章寫(xiě)作和閱讀理解兩類(lèi)涉及長(cháng)文處理時(shí),各平臺都能取得較好成績(jì),特別是ChatGPT在生成作文時(shí)所選用的句式豐富、篇幅較大且內容更符合小學(xué)生的暑假安排,而文心一言是國產(chǎn)大模型中生成內容更豐富、篇幅更多的平臺。
表:AIGC平臺在小學(xué)語(yǔ)文表現結果

小學(xué)階段語(yǔ)文習題大概可以劃分為詞語(yǔ)/言語(yǔ)理解、原文填空、拼音識別、閱讀理解和文章寫(xiě)作5類(lèi)題目,分別從“詞句文”不同層次檢驗AIGC生成能力和答案質(zhì)量。相對而言,文心一言在各類(lèi)題型上表現出色,無(wú)明顯短板;ChatGPT在閱讀理解方面表現較為優(yōu)秀,可以準確把握出題意圖并在原文中提煉答案;訊飛星火和360智腦則在回答言語(yǔ)理解時(shí)答題質(zhì)量有待提升。

圖:AIGC平臺對5類(lèi)小學(xué)語(yǔ)文習題回答準確程度分布
在給定主題和寫(xiě)作要求的情況下,各大平臺都能夠緊扣主題完成寫(xiě)作,用詞較為準確、行文通順流暢,展現了大語(yǔ)言模型對漢語(yǔ)豐富內涵的表達能力。ChatGPT生成作文邏輯嚴謹,能讓讀者感受語(yǔ)句中蘊含的藝術(shù)性;訊飛星火所作文章更善總結歸納,結構清晰;而360智腦無(wú)法理解小學(xué)6年級題目中“撰文400字以上”的字數要求,所作文章更加簡(jiǎn)單。
表:各AIGC平臺對拼音識別題型回答情況(注:標紅為回答正確)

值得關(guān)注的是,拼音識別題型結果有較大偏差,文心一言回答結果較為準確(90%以上);ChatGPT和360智腦可正確識別拼音發(fā)音首字母,訊飛星火則給出結果較為離譜。分析發(fā)現各平臺犯錯方向有所不同,ChatGPT無(wú)法識別音調,且存在自造詞的問(wèn)題,360智腦在字母和音調識別有誤,訊飛星火則存在無(wú)法按拼音識別單字的情況。
據36氪旗下“后浪研究所”所做的“00后作業(yè)小調查”顯示,輔導孩子已經(jīng)成為當代家長(cháng)“心中的痛”。調查報告顯示,當下超8成父母下班后都要輔導孩子學(xué)習,平均花費時(shí)間為67.7分鐘;超9成家長(cháng)都因為孩子的學(xué)習崩潰過(guò),僅8%的家長(cháng)沒(méi)有這方面困擾。就此,人民數據研究院建議以下方面:
本次測評中,也發(fā)現目前同模型交互使用方面,各AIGC平臺僅支持文本輸入模式,對于物理數學(xué)等具有特殊字符的內容則無(wú)法輸入,同時(shí)平臺并無(wú)“讀圖”能力,無(wú)法通過(guò)拍照題目的方式進(jìn)行回答。此外,對特定題目中提到的“有一個(gè)不屬于任何一類(lèi)”的限制條件,4平臺除360智腦外,均無(wú)法將限制條件納入回答的考慮之中。
AIGC的出現一定程度上讓目前家庭功課輔導有了更多可能,對于使用文心一言等通用語(yǔ)言模型在各類(lèi)學(xué)科中的回答能力,可以支持跨學(xué)科的家庭作業(yè)輔導活動(dòng)。讓家長(cháng)能評判題目正誤,如果模型能加入更多解釋能力,還能提升講解效率。
【1】版本號:ChatGPT-3.5 版本:May 24;文心一言版本:V2.2.0;訊飛星火版本:V1.5;360智腦版本:3.12.0
【2】根據大語(yǔ)言模型平臺在回答時(shí)提供的額外信息,作為評判素材。
【3】回答質(zhì)量是根據不同類(lèi)型題目的平均分數得到的,針對具有答案的內容,判斷回答正確率,針對作文和閱讀理解的內容,從回答長(cháng)度、切題程度和句式語(yǔ)法等角度主觀(guān)評斷。
來(lái)源:人民數據研究院
作者:人民數據研究院研究員 王簡(jiǎn),人民數據研究院研究員 馬綺霞