RM新时代|官方理财平台_ 人工智能幫孩子寫(xiě)暑假作業(yè)？有可能還需改進(jìn)！ - 詳情

首頁(yè) / 新聞資訊 / 企業(yè)動(dòng)態(tài) / 詳情

人工智能幫孩子寫(xiě)暑假作業(yè)？有可能還需改進(jìn)！

發(fā)布時(shí)間：2023-07-25

時(shí)值中小學(xué)生暑假，督促學(xué)生完成暑假作業(yè)又成為家長(cháng)們在假期中的重中之重。人工智能生成內容（簡(jiǎn)稱(chēng)：AIGC）平臺在語(yǔ)言理解和知識回答方面已得到多方證明，但在回答語(yǔ)文、英語(yǔ)等語(yǔ)言類(lèi)學(xué)科問(wèn)題時(shí)，其回答準確和流暢程度仍有待發(fā)現。

人民數據研究院圍繞ChatGPT、文心一言、訊飛星火和360智腦【1】4個(gè)通用AIGC平臺，從AIGC輔導功課、學(xué)生群體提升語(yǔ)言學(xué)習能力和回答習題能力等維度進(jìn)行綜合評估。本次測評以人教版小學(xué)3年級和6年級期末習題作為藍本，評估大語(yǔ)言模型處理選擇題、填空題、閱讀理解題以及作文題的回答質(zhì)量和解釋能力，對比發(fā)現已具備能力與改進(jìn)可能。

測評發(fā)現：

· 回答質(zhì)量隨年級而變化，高年級英語(yǔ)內容回答質(zhì)量更好，語(yǔ)文學(xué)科則更擅長(cháng)回答低年級內容。

· 分析解讀能力逐步體現，原文匹配、語(yǔ)法句法的解釋能力已嶄露頭角，其余方面仍有一定完善空間。

· 中文回答方面國產(chǎn)大語(yǔ)言模型能力顯著(zhù)，寫(xiě)作水平令人驚艷，但拼音識別仍是難題。

· 互動(dòng)仍以文字輸入為主，圖片、特殊符號等無(wú)法識別，對數學(xué)、物理等理科內容的分析理解仍有一段距離。

英語(yǔ)學(xué)科——詞語(yǔ)篩選待提升，長(cháng)文理解是亮點(diǎn)

觀(guān)察大語(yǔ)言模型對不同英語(yǔ)習題回答中，我們從單詞/詞組、句子理解、閱讀理解和撰寫(xiě)作文四個(gè)方面綜合考察，發(fā)現整體表現上文心一言和ChatGPT不相上下，前者更擅長(cháng)句子理解，后者作文能力更高；360智腦在閱讀和字詞方面表現良好，但生成作文時(shí)更為質(zhì)樸，所使用的句式偏簡(jiǎn)單，主題內容單一且字數也較少；而訊飛星火則對3年級單詞區分題無(wú)法進(jìn)行有效回答，準確率不足6成。

圖：AIGC平臺對4類(lèi)小學(xué)英語(yǔ)習題回答準確程度分布

各大平臺對于短篇閱讀理解（字數在300以?xún)龋┮堰_到較為嫻熟的程度（正確率均在80%以上），但對于將不同類(lèi)別單詞進(jìn)行重新分類(lèi)的題目?jì)H將將及格。而在文章寫(xiě)作和閱讀理解兩類(lèi)涉及長(cháng)文處理時(shí)，各平臺都能取得較好成績(jì)，特別是ChatGPT在生成作文時(shí)所選用的句式豐富、篇幅較大且內容更符合小學(xué)生的暑假安排，而文心一言是國產(chǎn)大模型中生成內容更豐富、篇幅更多的平臺。

語(yǔ)文學(xué)科——寫(xiě)作能力較優(yōu)秀，拼音識別待攻克

表：AIGC平臺在小學(xué)語(yǔ)文表現結果

小學(xué)階段語(yǔ)文習題大概可以劃分為詞語(yǔ)/言語(yǔ)理解、原文填空、拼音識別、閱讀理解和文章寫(xiě)作5類(lèi)題目，分別從“詞句文”不同層次檢驗AIGC生成能力和答案質(zhì)量。相對而言，文心一言在各類(lèi)題型上表現出色，無(wú)明顯短板；ChatGPT在閱讀理解方面表現較為優(yōu)秀，可以準確把握出題意圖并在原文中提煉答案；訊飛星火和360智腦則在回答言語(yǔ)理解時(shí)答題質(zhì)量有待提升。

圖：AIGC平臺對5類(lèi)小學(xué)語(yǔ)文習題回答準確程度分布

在給定主題和寫(xiě)作要求的情況下，各大平臺都能夠緊扣主題完成寫(xiě)作，用詞較為準確、行文通順流暢，展現了大語(yǔ)言模型對漢語(yǔ)豐富內涵的表達能力。ChatGPT生成作文邏輯嚴謹，能讓讀者感受語(yǔ)句中蘊含的藝術(shù)性；訊飛星火所作文章更善總結歸納，結構清晰；而360智腦無(wú)法理解小學(xué)6年級題目中“撰文400字以上”的字數要求，所作文章更加簡(jiǎn)單。

表：各AIGC平臺對拼音識別題型回答情況（注：標紅為回答正確）

值得關(guān)注的是，拼音識別題型結果有較大偏差，文心一言回答結果較為準確（90%以上）；ChatGPT和360智腦可正確識別拼音發(fā)音首字母，訊飛星火則給出結果較為離譜。分析發(fā)現各平臺犯錯方向有所不同，ChatGPT無(wú)法識別音調，且存在自造詞的問(wèn)題，360智腦在字母和音調識別有誤，訊飛星火則存在無(wú)法按拼音識別單字的情況。

雙職工父母功課輔導難，AIGC助力家庭教育

據36氪旗下“后浪研究所”所做的“00后作業(yè)小調查”顯示，輔導孩子已經(jīng)成為當代家長(cháng)“心中的痛”。調查報告顯示，當下超8成父母下班后都要輔導孩子學(xué)習，平均花費時(shí)間為67.7分鐘；超9成家長(cháng)都因為孩子的學(xué)習崩潰過(guò)，僅8%的家長(cháng)沒(méi)有這方面困擾。就此，人民數據研究院建議以下方面：

豐富平臺使用方式，允許特殊字符、照片輸入等形式

本次測評中，也發(fā)現目前同模型交互使用方面，各AIGC平臺僅支持文本輸入模式，對于物理數學(xué)等具有特殊字符的內容則無(wú)法輸入，同時(shí)平臺并無(wú)“讀圖”能力，無(wú)法通過(guò)拍照題目的方式進(jìn)行回答。此外，對特定題目中提到的“有一個(gè)不屬于任何一類(lèi)”的限制條件，4平臺除360智腦外，均無(wú)法將限制條件納入回答的考慮之中。

強化AIGC解答能力，提升回答解釋豐富度

AIGC的出現一定程度上讓目前家庭功課輔導有了更多可能，對于使用文心一言等通用語(yǔ)言模型在各類(lèi)學(xué)科中的回答能力，可以支持跨學(xué)科的家庭作業(yè)輔導活動(dòng)。讓家長(cháng)能評判題目正誤，如果模型能加入更多解釋能力，還能提升講解效率。

【1】版本號：ChatGPT-3.5 版本：May 24；文心一言版本：V2.2.0；訊飛星火版本：V1.5；360智腦版本：3.12.0

【2】根據大語(yǔ)言模型平臺在回答時(shí)提供的額外信息，作為評判素材。

【3】回答質(zhì)量是根據不同類(lèi)型題目的平均分數得到的，針對具有答案的內容，判斷回答正確率，針對作文和閱讀理解的內容，從回答長(cháng)度、切題程度和句式語(yǔ)法等角度主觀(guān)評斷。

來(lái)源：人民數據研究院

作者：人民數據研究院研究員王簡(jiǎn)，人民數據研究院研究員馬綺霞

RM新时代平台足球