日本女优北野望在线电影_91麻豆免费看_精品影院一区二区久久久_亚洲欧美区自拍先锋_欧美精品精品一区_含羞草激情视频_国产精品二线_国产一区二区影视

首頁 資訊 國內 聚焦 教育 關注 熱點 要聞 民生1+1 國內

您的位置:首頁>資訊 > 教育 >

爆火的“GPT-4 MIT本科數(shù)學滿分”論文作弊,數(shù)據(jù)集本身有問題 全球熱議

來源:騰訊網(wǎng)    發(fā)布時間:2023-06-18 14:17:31

機器之心報道

編輯:蛋醬


(相關資料圖)

結論不應該如此被夸大。

這兩天,一篇關于 GPT-4 滿分通過 MIT EECS 和數(shù)學本科考試的論文在推特上瘋傳。

論文地址:https://arxiv.org/pdf/2306.08997.pdf

簡單概括,一個來自 MIT 的研究團隊從自己學校的數(shù)學、電氣工程和計算機科學 (EECS) 專業(yè)的課程問題、期中考試和期末考試中,整理出了一個包含 4550 個問題和解決方案的綜合數(shù)據(jù)集。

然后,研究團隊讓各種大語言模型去完成這個數(shù)據(jù)集的題目,結果太嚇人:GPT-3.5 能做對 1/3,GPT-4 幾乎滿分通過。

論文作者表示,提升模型表現(xiàn)主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答題正確率就越高。原始的 GPT-4 本來就能拿到 90% 的正確率得分,一番運作之后,甚至直接拿到滿分。

但大部分討論得很激烈的網(wǎng)友可能沒注意到,這個分數(shù)本身就是用 GPT-4 打的……

三位同樣來自 MIT 的學生第一時間發(fā)現(xiàn)了這篇論文,作為險些被 GPT-4 趕超的群體,他們想立即領會一下爆款論文的方法論。

研究了一小時后,他們對該論文的方法產生了懷疑。

兩小時后,他們意識到:數(shù)據(jù)集本身有問題。

盡管原論文的作者宣稱已手動審查了發(fā)布的數(shù)據(jù)集質量,但三人發(fā)現(xiàn),有明顯的跡象表明,測試數(shù)據(jù)集的很大一部分被污染了。

也就是說,模型就像一個學生在考試前被告知了答案,這是赤裸裸的「作弊」。

產生質疑后,他們立即著手在數(shù)據(jù)集上完成了零樣本 GPT-4 的運行,并對數(shù)據(jù)的前 30% 進行了手動評分,結果與原論文相差甚遠,應該說是一個天上、一個地下。

「作為麻省理工學院的本科生,至少根據(jù)我們的經(jīng)驗,這個測試集并不能準確地代表在麻省理工學院獲得 EECS 學位所需的理解廣度和深度。」三人在博客中這么寫道。

最新進展:零樣本 GPT-4 的準確率能達到 62.5% 了,但還是和論文里宣稱的 90% 差很多。

三人還質疑了「過度宣傳」的風潮:「這些論文通常在任何合法的同行評審之前就被上傳到 Arxiv,并在 Twitter 上廣泛分享。在這種情況下,可能會傳播不良信息,并為未來的工作樹立一個糟糕的先例。」

「深度學習」斗士 Gary Marcus 也不出意料地聲援了這波質疑:

同時,三人也在博客中指出一點:《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》論文上列出的幾個作者都是本科生研究人員,讓這些人對工作中出現(xiàn)的任何失誤負責是不合適的。相反,責任應該在指導作者身上 —— 他們才是被期望確保工作符合其領域內公共學術標準的人。

接下來讓我們看下,這篇「爆火」論文都有哪些問題。

數(shù)據(jù)集到底有什么問題?

首先,從原論文中得知,研究者收集的數(shù)據(jù)集包含獲得 MIT 學位考試所需的 30 門數(shù)學和 EECS 課程的 4550 個問題和相應的解決方案,涵蓋核心課程和選修課程。

論文中寫道:「在沒有圖像和有解決方案的問題中隨機選擇了 288 個問題的測試集。」

這個數(shù)據(jù)集(不包括用于微調開源 LLM 的訓練集)隨著論文的公開也被發(fā)布到 GitHub 上,同時發(fā)布的還有用于生成報告的測試性能的代碼。然而,作者 Drori 教授在最近的一次提交中已經(jīng)將其刪除。

經(jīng)過檢查、對比,三人確信這個被刪掉的文件代表了論文中分析的測試集,因為評估代碼中的所有數(shù)據(jù)的文件路徑都指向它,沒有提供任何修改其內容的代碼,而且它在最初發(fā)布的 GitHub 倉庫中是可用的。此外,該文件滿足了論文中規(guī)定的所有模式要求(行數(shù)等)。這些證據(jù)似乎非常有力地支持了下面的所有主張,

「但我們要承認,這個文件有可能被換成了一個用于測試的不同文件。如果是這樣的話,我們認為證明的責任在于作者公開發(fā)布這個數(shù)據(jù)和用它做的所有分析。」

那么,被掩蓋的問題究竟是什么呢?三人給出了自己的分析。

無法解決的問題(約占測試集的 4%)

鑒于原論文表示,任何形式的 GPT-4 都能在測試集上產生一個完美的分數(shù),三人開始檢查個別數(shù)據(jù)點。他們很快就發(fā)現(xiàn),根本不可能有滿分,因為數(shù)據(jù)集中至少有 10 個問題是無法用所提供的信息解決的,另外幾個問題在這種情況下根本就不是有效的問題。

像這種「有問題的問題」,至少占據(jù)了測試集的 4%。

在一個擴展的 excel 文檔里,三人對已經(jīng)發(fā)現(xiàn)有問題的數(shù)據(jù)集例子進行了注釋。「紅色」代表用提供的信息無法解決的問題,「黃色」代表一部分不太合理的問題。

頁面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重復的問題(約占測試集的 5%)

使用文本相似性檢測,三人發(fā)現(xiàn)有 14 個問題(7 對)在 288 個問題的測試集中是重復的,在這些情況下,問題串之間的唯一區(qū)別是極小的字符級噪音,甚至完全相同。

鑒于這些無法解決的問題,GPT-4 能夠通過任何方式獲得 100% 的準確率,也是難以置信。要么是在某個階段出現(xiàn)了答案泄漏到 prompt 中,要么是問題沒有被正確打分。

這些初步的發(fā)現(xiàn)促使他們從少樣本示例開始進一步調查(如果模型在零樣本正確率方面失敗的話),最終發(fā)現(xiàn),既有解題信息的泄露,也有用于對模型輸出進行分級的方法問題。具體情況如下:

少樣本示例中的信息泄露

值得注意的是,原論文中還提到了「少樣本示例」這個事。

簡而言之,論文對 OpenAI 嵌入的數(shù)據(jù)集內的類似問題進行余弦相似度搜索,并將這些問題和解決方案作為額外的上下文納入模型的 prompt,幫助模型解決問題。

這個方法本身是沒問題的,只要這些示例與有關問題有足夠的差異,且避免暴露不公平的信息。

只是隨機掃描已發(fā)布的測試數(shù)據(jù)集時,三人注意到一些奇怪的事情:許多提供給模型的「少樣本示例」與問題本身幾乎一字不差。

為了進一步了解這一點,他們寫了一個簡單的腳本,查看了所提供的幾個示例的問題陳述和所列出的問題之間的重疊情況,并繪出了直方圖:

許多提供的少樣本與問題本身幾乎相同,這意味著模型得到的是問題的答案或與問題非常相似的問題。通常情況下,這來自于大量的共享背景的多環(huán)節(jié)問題的重復。

他們認為,為了正確評估 GPT 的解題能力,多環(huán)節(jié)問題的其他部分應該被完全排除在某一問題的少樣本示例之外。事實上,他們發(fā)現(xiàn)這些多環(huán)節(jié)問題的解決方案,往往直接提到或給出了模型被要求解決的另一部分問題的答案。

不僅如此,在對這些數(shù)據(jù)的挖掘中,他們還發(fā)現(xiàn)了整個問題被重復的樣本。比如:

在這兩種情況下,答案是完全相同的。很難說不算信息泄漏了。

GPT-4 自動打分,有問題

此外,三人還在原論文開源的打分機制中發(fā)現(xiàn)了問題:

在代碼中,能看出流程上處理分級存在嚴重的問題:論文是用 GPT-4 去評估檢查的,包括 a)原始問題,b)解決方案,c)GPT 自己的答案,作為分級 prompt 中的參數(shù)。

在更多的技術領域,GPT 更有可能出現(xiàn)隱性誤解,這種自動評分更有可能出現(xiàn)「自我欺騙」的結果。

此外,雖然 prompt 級聯(lián)是最近許多 GPT 論文中常見的技術,但這里有大量數(shù)據(jù)泄漏的可能性。每一級不僅提供基于 ground truth 的二元信息,而且還在繼續(xù) prompt,直到達到正確答案。

盡管這些創(chuàng)建的 prompt 并沒有看到實際的答案,但重新 prompt 直到達到正確答案的形式已經(jīng)足夠了,尤其是在占測試集 16% 的多選題中,無限次的嘗試(幾乎)保證了正確答案一定會出現(xiàn)。

這就好比有人拿著答題紙,告訴正在考試的學生答得對不對,一直提示到學生得到正確答案。

總結

在博客的最后,三位這樣寫道:

這篇論文道出了最近人工智能領域研究的一個更大趨勢。隨著該領域的進展越來越快,新發(fā)現(xiàn)的時間節(jié)奏似乎在縮短,這往往伴隨著捷徑。一個特別令人擔憂的趨勢是使用像 GPT-4 這樣基于語言的模型來評估一個模型的準確性的技術。

雖然是一個有用的工具,但它的結論絕不應該被夸大,也不應該被當作 ground truth。最近的工作表明,如果沒有準確的 ground truth 信息,GPT-4 評估器就不能可靠地用于驗證。至少,應該選擇一個隨機的數(shù)據(jù)集子集,將 GPT-4 的性能與人類的評估進行比較。語言模型還不能被當作產生 ground truth 的神諭。

此外,在使用數(shù)據(jù)之前,無論是用于訓練、推理、基準測試還是其他方面,重新評估每一個數(shù)據(jù)點并進行基本的檢查是極其重要的。鑒于有關數(shù)據(jù)集的規(guī)模較小,簡單的人工驗證很容易在工作范圍內完成。?

我們的批評主要是針對這項研究的方法和嚴謹性,而不是針對其內容。我們對大型語言模型實際解決麻省理工學院課程的能力沒有任何意見,只是認為本文未能以科學嚴謹?shù)姆绞阶C明這一點。

關鍵詞:

頻道精選

首頁 | 城市快報 | 國內資訊 | 教育播報 | 在線訪談 | 本網(wǎng)原創(chuàng) | 娛樂看點

Copyright @2008-2018 經(jīng)貿網(wǎng) 版權所有 皖ICP備2022009963號-11
本站點信息未經(jīng)允許不得復制或鏡像 聯(lián)系郵箱:39 60 29 14 2 @qq.com

av片在线观看免费| 国产精品久久久久7777按摩| 日韩成人在线观看| 一区二区三区加勒比av| 欧美h版在线观看| 欧美黑人猛交的在线视频| 中日韩一区二区三区| 亚洲欧美999| 精品久久人人做人人爰| 国产真实乱子伦精品视频| 99久久久久| 一区二区精彩视频| 成人免费在线观看视频| 国产美女一区视频| 欧美精品日韩综合在线| 狠狠狠色丁香婷婷综合久久五月| 巨胸喷奶水www久久久免费动漫| 欧美午夜影院一区| 日韩美女久久久| 中文字幕欧美日本乱码一线二线| 色综合久久网| 蜜桃视频www网站在线观看| 欧美成人视屏| 老司机av在线免费看| 日本www在线观看视频| 日韩一级二级| а√天堂资源国产精品| 99国产精品免费视频观看| 国产精品一区一区三区| 激情另类小说区图片区视频区| 亚洲二区免费| 欧美激情精品久久久六区热门| 少女频道在线观看高清| 色视频www在线播放| a优女a优女片| 最新日本视频| 久久精品色图| 日本在线www| 国产精品色呦| 成人3d动漫在线观看| 青春草视频在线观看| 欧美自拍视频| 在线日韩网站| 久久国产亚洲精品| 成人av免费在线播放| 久久久久久久久蜜桃| 久久精品欧美日韩| 亚洲尤物在线| 日产欧产美韩系列久久99| 麻豆精品国产传媒mv男同| 国内精品伊人久久久久av一坑| 男人的天堂久久精品| 高清国产一区二区三区| 91蜜桃免费观看视频| 亚洲欧洲精品一区二区三区不卡| 九一九一国产精品| 欧美国产一级| 国产人成一区二区三区影院| 亚洲精品国产成人久久av盗摄| 国产在线精品国自产拍免费| 欧美午夜影院在线视频| 2014亚洲片线观看视频免费| 中文字幕一区不卡| 免费人成短视频在线观看网站| 欧美色爱综合网| 国产精品无码永久免费888| 亚洲欧美区自拍先锋| 国产精品一区二区久久不卡| 欧美性高清videossexo| 91精品国产黑色瑜伽裤| 国产精品日韩精品在线播放 | 久久www免费人成看片高清| 在线日韩av片| 免费av片风间由美在线| 99re6热只有精品免费观看| 91精品国产乱码久久久久久久| 91久久精品无嫩草影院| 欧洲杯半决赛直播| 日韩成人午夜精品| 欧美日韩一区国产| 高清一级毛片视频| 亚洲黄在线观看| 亚洲精品男人| 性欧美hd调教| 精品视频免费| 亚洲色图一区二区| 久草免费在线| 6080成人| 亚洲天天做日日做天天谢日日欢| 欧美一区二区女人| 麻豆影视在线| 神马精品久久| 99久久er| 99久久视频| 色综合久久66| 诱受h嗯啊巨肉高潮| 国内成人自拍| 欧美午夜精品久久久久久人妖| 亚洲美女久久久| 国产麻豆一区二区三区精品视频| 日韩mv欧美mv国产网站| 久久久久99| 一区二区三区视频在线观看| 国产在线高潮| 国产精品自拍三区| 天堂在线第六区| 一区二区蜜桃| 一区二区三区四区五区精品视频| 激情综合久久| 久久众筹精品私拍模特| 日本又骚又刺激的视频在线观看| 国产精品一区免费在线 | 欧洲av一区二区| 久久中文字幕二区| 欧美丝袜丝交足nylons图片| 日韩免费高清视频网站| 久久99久久久久| 午夜精品久久久久久久久久| 五月天最新网址| 韩国三级大全久久网站| 久久久国产精品午夜一区ai换脸| 日韩欧美国产一区在线观看| av中文字幕在线观看| 中文字幕精品影院| 欧美揉bbbbb揉bbbbb| 国产丝袜一区| 日韩国产欧美视频| 欧美性猛交99久久久久99按摩| 欧美黑人孕妇孕交| 亚洲欧美视频一区二区三区| 免费av片风间由美在线| 超碰97成人| 欧美人牲a欧美精品| 成人情趣视频| 日韩精品高清在线| aa亚洲婷婷| 欧美图片一区二区三区| 婷婷激情久久| 日韩欧美卡一卡二| 在线综合视频| 水莓100在线视频| 国产精品18久久久久| 欧美xxxx在线观看| 久久久久久久久久久久久久| 亚洲精品视频播放| 91精品国产自产在线丝袜啪| 国产传媒日韩欧美成人| 精品国产3级a| 在线日韩成人| 欧美一区二区视频在线观看2022| 国产高潮在线| 国产一区二区三区免费| a级在线观看| 亚洲精品欧美二区三区中文字幕| h网站在线免费观看| 狠狠入ady亚洲精品| 精品国产乱码久久久久久虫虫漫画| 91精品国产aⅴ一区二区| 婷婷亚洲图片| 亚洲52av| 国产欧美一区二区三区网站| 激情综合婷婷| 亚洲第一色在线| 美女视频亚洲色图| 亚洲国产中文字幕久久网| 久久中文在线| 欧美xxxx免费虐| 欧美日韩一区二区三区| 涩涩在线视频| aaa欧美色吧激情视频| 三级理论午夜在线观看| 久久亚洲精品小早川怜子| 日本伊人色综合网| 久草在线资源福利站| 欧美伊人精品成人久久综合97| 992tv国产精品成人影院| 欧美日本一道本在线视频| 亚洲午夜免费| 亚洲精品亚洲人成人网在线播放| 手机av免费在线| 成人免费毛片高清视频| youjizz在线播放| ...中文天堂在线一区| 欧美亚洲精品在线| 国产精品二线| 国产精品美女久久久久久不卡| 一区二区三区.www| 国产精品精品国产一区二区| 国产精品一区二区三区四区色| 免费不卡在线观看| 亚洲四虎影院| 亚洲老司机在线| 欧美/亚洲一区| 亚洲国产天堂网精品网站| 国产精品一级二级三级| 都市激情亚洲欧美| 巨骚激情综合| 在线观看一区不卡| 国产精品一二二区| 日韩a级大片|