日韩女同强女同hd_亚洲午夜国产成人av电影男同_邪恶网站在线观看_91一区在线观看_就去色蜜桃综合_一区二区三区在线影院_午夜精品一区二区三区视频_久久天天躁狠狠躁老女人_国产精品涩涩涩视频网站_91尤物视频在线观看_欧美激情aaaa_国产三级视频网站

首頁 > 今日汽車 > 今日汽車 > 科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

科學家用STEM數據集評測神經網絡模型基礎,加快人工智能實現進程

發布時間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實世界中諸多問題的基礎。譬如,探索蛋白質結構、證明數學定理、發現新藥物等。(編者注:STEM,即科學、技術、工程和數學四門學科英文首字母的縮寫。)

 

而對于人工智能領域來說,理解視覺-文本的多模態信息,則是掌握 STEM 技能的關鍵。

 

可是,現有的數據集主要集中在檢驗模型解決專家級別難題的能力上,難以反映模型在基礎知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關注 STEM 中某單一學科的能力。

 

另外,由于缺少細粒度的信息,該領域的科學家也無法更好地分析與改進神經網絡模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內容,既無法讓人充分信任,又不能幫助指導未來模型開發的方向。

 

更重要的是,由于缺乏和人類表現相關的數據,因此科學家也不可能獲取到更具實際意義的模型表現參考,嚴重阻礙了人工智能的健康發展。

 

為了攻克上述局限性,近期,來自北京大學和美國圣路易斯華盛頓大學的研究團隊,不僅成功完成了首個多模態 STEM 數據集的構建,還在此基礎上實現對大語言模型與多模態基礎模型的評測。

 

結果發現,即使是目前最先進的人工智能模型,其 STEM 基礎水平也存在較大的提升空間,尚不具備解決更有難度的現實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關論文以《測量神經網絡模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學習大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數據集相關資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數據集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學王晨光助理教授和北京大學張銘教授擔任共同通訊作者。王晨光助理教授博士畢業于北京大學,導師是張銘教授。

 

圖丨相關論文(來源:ICLR 2024)

 

 

搭建 STEM 數據集,全方位評測神經網絡模型的基礎理工科能力

 

據王晨光介紹,課題組在確定研究目標和題目之后,便開始著手收集數據。

 

一向擅長于算法研究的團隊成員,在面對爬蟲編寫、數據清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設計了多種用于數據清洗和去重的規則,最終成功獲得了首個多模態 STEM 數據集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數據集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態 STEM 題目數據集。

 

圖丨相關論文(來源:ICLR 2024)

 

接著,他們開始針對數據集進行評測與分析。

 

由于該數據集包含科目(科學、技術、工程、數學)、技能和年級三個維度標簽,因此研究人員選擇從這三個維度切入,對每個維度的數據數量分布、問題類型分布、問題長度分布等信息進行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓練集、驗證集與未公開標簽的測試集。

 

隨后,研究人員又設計了模型評測方案。

 

其中,在選擇評測指標時,他們除了關注準確率,還重點使用全球范圍內最被認可的在線習題網站之一(https://www.ixl.com/)的考試分數。

 

后者是基于該網站千萬用戶的真實考試成績得出的,與學生對知識的掌握程度呈正相關。當分數達到 90 以上(通常是小學生水平)時,就代表學生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分數與真實人類的考試結果進行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結出的,而該團隊的結果卻是基于千萬量級的數據得到的,可信度更高。

 

然后,在模型評測環節,研究人員選擇使用當前主流的大基礎模型,包括 OpenAI 的多模態 CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規模的 CLIP 模型與 GPT3.5-Turbo 模型,發現在 0 樣本的設置下,模型的錯誤率很高。這表明現有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進一步地,他們又利用劃分出的訓練數據集,對 CLIP 模型進行了微調,發現微調后的模型取得了顯著的效果提升,綜合準確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結果的各個側面進行了分析。

 

具體來說,首先,在年級層面,他們發現模型的測驗分數隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預期。

 

圖丨測驗分數隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現,他們發現模型在抽象知識與復雜推理任務上的表現欠佳。

 

另外,過去的經驗表明,模型應該對正確答案有著較高的預測置信度,這代表著模型的校準度較好。

 

“我們發現在我們的數據集上微調過的模型,表現出了良好的校準性,模型的置信度與準確率呈現清晰的相關性。”王晨光說。

 

另一方面,他們在研究模型規模與效果之間關系的過程中,也發現了清晰的正相關關系。

 

與此同時,他們還分析了模型表現與問題長度、問題類型、選項數量等其它因素之間的關系,發現隨著問題變長、選項數量變多和樣例數量變少,模型的表現都會下降。

 

除此之外,他們也評估了準確率與測驗考試分數這兩種指標的相關性,發現它們同樣呈現出顯著的正相關。

 

“最終,在整體的評價指標上,我們確認即使是微調過的模型,與人類對應年級學生水平相比也有顯著差距。基于此,我們仍然需要尋找更有效的方法,使模型掌握 STEM 知識技能。”王晨光說。

 

圖丨與人類表現比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數據集,加快通用人工智能實現的進程

 

顯而易見,在該項研究中,STEM 數據集發揮了關鍵作用。

 

它不僅有利于模型增強 STEM 的基礎知識,還能幫助研究人員評估模型對于基礎 STEM 技能掌握的程度,并通過細粒度的數據分析有針對性地改進模型。

 

王晨光表示,他和團隊期待該數據集可以進一步推動當前多模態大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標更進一步。

 

并且,也希望發布的測試集可以作為評測人工智能基礎模型能力的標準評測之一,得到社區的廣泛使用。

 

“更重要的是,我們提供的與大規模人類(主要是小學生)真實水平的比較,可以作為未來模型開發的目標和參考,以加快通用人工智能目標實現的進程。”他說。

 

目前,基于該數據集,該課題組已經成功評測了神經網絡模型在基礎教育中的理工科能力。

 

接下來,他們一方面計劃繼續收集數據,并嘗試推出諸如人文學科、社會學科等領域的數據集,以更好地評測大語言模型在其他關鍵學科上的能力。

 

在這方面值得關注的是,該團隊最近已經提出了一個新的社會學科數據集 Social,包含較大規模的文本評估數據,可用來評測大語言模型的社會學科基礎能力。

 

進一步地,還設計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數據集上的表現。

 

相關論文以《衡量大語言模型的社會規范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學協會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細粒度數據集上的表現,找出模型能力不足的部分,并研究如何改進。

 

此外,還希望通過結合檢索的 RAG 方法、設計特殊的模型架構和訓練方法,來進一步增強模型的基礎能力。

 

“我們相信,只有先在基礎理工科和文科領域實現突破,扎實打好基礎,人工智能才有被進一步應用的可能性。”王晨光如是說。

今日汽車更多>>

比亞迪力壓美系排名第五,2024年全球車企銷量排行榜前十出爐 出乎意料!雷克薩斯敲定國產,但只生產純電動 1月售3萬余臺,重奪“銷冠”寶座,小鵬終于逆襲了 1月新能源銷量:小鵬躍3萬,小米超2萬,都是什么含金量? SL-FILTER盛聯濾清器:帶您揭開機油濾清器測評迷霧! 2024全球車企銷量排行榜:比亞迪名列第五 224323臺,同比增長10.3%,奇瑞集團2025年1月銷量出爐 阿維塔1月售8826臺,同比上漲25%,環比有所下滑 多家車企發布1月銷量 小鵬突破3萬大關 理想汽車微微下滑 三款高端國產轎車來襲 尊界S800、仰望U7領銜 2025年剛過,本田就召回136.7萬輛!快看你的車中招了嗎! 全世界64%的純電動車,被中國人買走了! 通用汽車2024年第四季度虧損29億美元!受中國業務重組影響! 現代昂希諾,中國沒人買,但全球銷售200萬輛! 2024年泰國汽車生產減少20%,回到疫情前的水平! 保時捷Taycan 有4個吉尼斯世界記錄,你知道是什么嗎? 20萬純電家轎怎么選,新款極氪007還是小米SU7 新賽道來了!從CES看汽車行業的數智化轉型與未來趨勢 BBA三巨頭24年戰報公布,誰是英雄or誰被打擊? Rivian新專利申請:加熱透鏡以去除車燈沉積物 雷諾集團2024年銷量同比增長1.3% 吉利汽車埃及工廠投產,未來年產能達近3萬臺 延鋒胡斐:出海邁入新階段,物流規劃助力海外運營 海力達張悅:打造深度本地化的全球企業在供應鏈端的實踐與思考 蘭博基尼 再破紀錄 2024年銷售創歷史新高! ?第10000輛交付!長超5米1,擁有百萬實力僅售33萬多,BBA不香了 零跑成為第二家盈利的新勢力,耐世特常熟基地開業 “兩新”補貼細則出爐 今年車市將迎2300萬輛增量空間 2025武漢國際新能源汽車工業展,引領綠色出行新風尚 2025汽車購新補貼政策在即,是時候迎接新車變革了嗎?
亚洲欧美中文字幕在线一区| 国产精品999在线观看| 蜜桃av一区二区在线观看| 亚洲av人人澡人人爽人人夜夜| 免费在线欧美视频| 久久香蕉国产线看观看网| 手机版av在线| 中文字幕在线观看一区二区| 91中文精品字幕在线视频| 欧美性视频一区二区三区| 丝瓜av网站精品一区二区 | 欧美片网站yy| 天天影视色香欲综合网老头| 中文字幕精品综合| 久久久夜色精品亚洲| 国产福利精品一区| 国产精品一区一区| 国产成人精品三级| 成人综合在线网站| 成人免费看的视频| 成人18视频在线播放| 国产精品一二三四五| 激情成人综合网| 国产精品中文字幕日韩精品| 经典一区二区三区| 国产成人啪免费观看软件| 精品无人码麻豆乱码1区2区| 韩国视频一区二区| 国产精品99久久久久久久女警| 老司机精品久久| 麻豆成人免费电影| 国产精一品亚洲二区在线视频| 九色综合狠狠综合久久| 国产中文字幕一区| 成人的网站免费观看| 久久综合九色综合97婷婷| 亚洲国产成人在线| 亚洲成人手机在线| 欧美日韩国产综合一区二区三区| 制服丝袜中文字幕一区| 欧美一级艳片视频免费观看| 日韩欧美国产一区在线观看| 精品中文字幕久久久久久| 亚洲天堂视频在线观看| 久久影视免费观看| 国产精品久久久久免费a∨| 成人黄色av网站| 久久久久久国产精品mv| 青青草原国产免费| www.国产区| 久久精品aⅴ无码中文字字幕重口| 喷水视频在线观看| 日本激情视频一区二区三区| 国产精品免费精品一区| 精品人妻一区二区三区含羞草 | 精品视频在线免费看| 欧美人牲a欧美精品| 亚洲国产精品小视频| yw.139尤物在线精品视频| 国产91精品久久久久| julia一区二区中文久久94| 亚洲精品影院| 天堂在线中文在线| 久久精品色妇熟妇丰满人妻| 免费又黄又爽又猛大片午夜| 久久欧美肥婆一二区| 成人深夜在线观看| 一区二区三区四区视频精品免费| 欧美蜜桃一区二区三区| 色偷偷亚洲男人天堂| 国产精品久久久久久久久久久不卡| 高清一区二区三区视频| 国产美女主播在线播放| 特黄特色免费视频| 日本少妇裸体做爰| 亚洲av成人精品日韩在线播放| 本田岬高潮一区二区三区| 亚洲黄网站在线观看| 69p69国产精品| 欧美成人在线免费| 免费av在线一区二区| 黄色片视频在线免费观看| 免费看91的网站| 99久久精品国产色欲| 91色porny| 91精品视频网| 18久久久久久| 国产精品无码乱伦| 亚洲久久久久久| 在线观看国产精品视频| 国产91在线|亚洲| 日韩欧美有码在线| 欧美成aaa人片免费看| 久久国产精品99久久久久久丝袜| 黄色一级视频片| 天天操夜夜操av| 午夜成人免费影院| 亚洲人成网站色在线观看| 亚洲精品一区二区三区影院| 国产日韩欧美自拍| 日韩国产一级片| 国产色无码精品视频国产| 久久国产日本精品| 亚洲国产另类精品专区| 久久影院中文字幕| 亚洲欧洲日韩综合二区| 中文字幕丰满乱子伦无码专区| 性中国xxx极品hd| 亚洲精品视频在线观看免费| 久久精品国产亚洲精品2020| 一区二区国产日产| 国产精品国产三级国产传播| 国产精品一品视频| 欧美成人精精品一区二区频| 国产经典一区二区三区| 亚洲熟女一区二区三区| 亚洲第一第二区| 欧美午夜视频在线观看| 欧美中文在线免费| 黄色三级视频片| 欧美视频xxxx| 亚洲最新视频在线播放| 国内精品400部情侣激情| 日韩欧美国产综合在线| 日韩视频在线观看一区| 亚洲色图在线看| 久久97精品久久久久久久不卡| av久久久久久| 国产精品777777| 日韩一区欧美一区| 国模视频一区二区| mm131国产精品| 色婷婷av一区二区三| 欧美性三三影院| 国产精品xxx在线观看www| 爱爱免费小视频| 一级片免费观看视频| 26uuu亚洲综合色欧美| 亚洲色图第一页| 亚洲视频综合在线| 美女爽到高潮91| 亚洲国产视频一区| 欧美色欧美亚洲高清在线视频| 自拍偷拍亚洲欧美日韩| 欧美日韩性视频在线| 884aa四虎影成人精品一区| 91久久精品网| 国产精品看片你懂得| 国产成人福利片| 亚洲国产成人一区二区三区| 99久久精品国产观看| 中文字幕一区二区三区乱码在线| 欧美日韩性生活视频| 欧美高清精品3d| 亚洲精选一二三| 国产毛片精品视频| 成人小视频免费观看| 国产亚洲综合色| 精品人妻久久久久一区二区三区| 在线电影院国产精品| www.久久久| 欧美日韩一级大片| 国产精品视频看| 精品视频久久久久久久| 日韩欧美一区二区在线观看| av动漫免费看| 日日噜噜夜夜狠狠久久波多野| www.97视频| 成人免费在线视频播放| 日本精品一区在线观看| 国产富婆一级全黄大片| 9191成人精品久久| 国产综合动作在线观看| 亚洲精品自拍网| 成年人看的毛片| 别急慢慢来1978如如2| 91超薄肉色丝袜交足高跟凉鞋| 亚洲av综合色区无码另类小说| 真实国产乱子伦对白在线| av地址在线观看| 精品无码人妻一区二区免费蜜桃 | 国产性70yerg老太| 欧美激情一区在线| 久久久久国色av免费观看性色| 手机视频在线观看| 国产美女视频免费观看下载软件| 国产精品果冻传媒| 三级黄色在线观看| 精品人妻一区二区三区换脸明星 | 狠狠躁狠狠躁视频专区| www.桃色.com| 日韩欧美在线视频播放| 久操视频免费在线观看| 无码精品人妻一区二区三区影院| 久久精品国产亚洲高清剧情介绍 | 久久久成人的性感天堂| 欧洲一区二区视频| 亚洲人辣妹窥探嘘嘘| 免费欧美一级视频| 无码av免费精品一区二区三区| 欧美成人黄色网址| 国产片在线播放| 一本色道久久综合熟妇| 精品国产乱码久久久久久天美| 极品校花啪啪激情久久| 日韩福利小视频| 欧美日韩中文精品| 国产suv精品一区二区| 国产成人精品最新| 亚洲免费成人在线视频| 国产精品无码粉嫩小泬| 99re6这里只有精品视频在线观看| 欧美视频一区二区三区四区| 国产精品欧美激情在线播放| 一本一本久久a久久精品综合妖精| 国产精品情侣呻吟对白视频| 国产精品1区2区3区在线观看| 3751色影院一区二区三区| 痴汉一区二区三区| 玖玖爱在线观看| 99久久精品国产毛片| 日本欧美精品在线| 色撸撸在线视频| 久久久噜噜噜久噜久久综合| 国产午夜一区二区| 黄色国产在线观看| 成人在线综合网| 日韩有码在线电影| 久久亚洲精品大全| 在线精品91av| 精品熟妇无码av免费久久| 五月天久久比比资源色| 中文字幕欧美日韩| 六月激情综合网| 青青草精品视频| 色噜噜狠狠狠综合曰曰曰88av| 超碰成人在线播放| 波多野结衣中文字幕一区| 欧美精品激情在线观看| 中文字幕22页| 91视视频在线观看入口直接观看www| 国产v综合ⅴ日韩v欧美大片| 免费看91的网站| 99久久99久久精品免费看蜜桃| **亚洲第一综合导航网站| 国产在线免费视频| 欧美sm极限捆绑bd| 亚洲热在线视频| 精品国产99国产精品| 少妇精品无码一区二区| 国产视频在线免费观看| 91精品久久久久久久久久| 九色porny丨国产精品| 99re99热| 欧美午夜片在线观看| av日韩中文字幕| 久久精品五月天| 在线中文字幕日韩| 黄色av中文字幕| 国产精品日韩久久久久| 免费在线一区观看| 国产69精品久久99不卡| 日韩欧美一级片| 69视频免费看| 国产高清精品一区二区三区| 日韩一卡二卡在线| 99re视频| 亚洲黄色av一区| 91精品一区二区三区蜜桃| 欧美理论电影在线观看| 奇米777第四色| 日韩女优制服丝袜电影| 中文字幕一区久久| 国产精品1区2区| 国产成年人视频网站| 一区二区三区国产视频| 精品国产乱码一区二区三| 中文字幕色呦呦| 丁香婷婷综合网| 性刺激综合网| 欧美国产精品一区二区三区| 亚洲最大的黄色网址| 欧美亚洲日本网站| 午夜久久久久久久久久影院| 欧美一区二区三区在| 性欧美videossex精品| 国产精品538一区二区在线| 国产精品一区二区欧美黑人喷潮水| 亚洲av无码乱码国产麻豆| 最近更新的2019中文字幕| 亚洲18在线看污www麻豆| 中文字幕欧美国产| 天天人人精品| 国产一区二区三区在线观看精品 | 精品国产乱码久久久久久闺蜜| 狠狠狠狠狠狠狠| 亚洲最新免费视频| 欧洲亚洲女同hd| 99精品1区2区| 久热这里只精品99re8久 | 欧美图片激情小说| 中文字幕精品av| 日本伊人色综合网| www成人免费| 中文字幕精品一区久久久久| 成人深夜视频在线观看| av激情在线观看| 国产精品igao激情视频| 久久视频在线看| 亚洲一区在线电影| wwwav网站| 素人fc2av清纯18岁| 欧美性色黄大片人与善| 日韩一区二区三区xxxx| 亚洲欧美日韩久久精品| av中文字幕第一页| 免费a在线观看播放| 欧美日韩二三区| 日韩午夜在线播放| 青娱乐精品在线视频| 日韩在线三级| 日韩中文字幕在线播放| 国产欧美日韩不卡免费| 老熟妇仑乱视频一区二区| 中文字幕国产亚洲2019| 疯狂做受xxxx欧美肥白少妇 | 欧美高清视频在线| 一区二区三区小说| 成年人网站免费看| 亚洲一区二区三区视频| 久久免费精品国产久精品久久久久| 亚洲一区二区三区精品动漫| 一区二区三区精品在线观看| 国产又粗又长又硬| 成人自拍性视频| 色八戒一区二区三区| 亚洲精品国产手机| 最近免费观看高清韩国日本大全| 偷拍日韩校园综合在线| 久久成人免费网站| 日韩高清中文字幕一区| 欧美激情黑白配| 日韩av不卡在线播放| 日韩限制级电影在线观看| 欧美日韩综合在线观看| 日韩精品视频久久| 国产欧美精品一区二区| 亚洲一级黄色片| 欧美日韩亚洲精品内裤| 日韩精品乱码av一区二区| a视频免费在线观看| 中日韩黄色大片| 亚洲专区在线视频| 91免费版网站入口| 九九热99久久久国产盗摄| 国产成人av在线影院| 欧美bbbbb性bbbbb视频| 国产欧美日韩伦理| 欧美一卡二卡在线观看| 美女mm1313爽爽久久久蜜臀| 欧美做受高潮6| 美女网站免费观看视频| 国产美女高潮久久白浆| 91精品婷婷国产综合久久| 91在线视频播放| 国产成人99久久亚洲综合精品| 老司机亚洲精品| 久久er精品视频| 精品一区二区三区影院在线午夜| 久久 天天综合| 国产成人久久精品77777最新版本| 国产精品夜夜嗨| 91丨九色porny丨蝌蚪| 99久久久国产精品免费蜜臀| 欧美日韩国产一中文字不卡 | 中文字幕一区二区三区精华液| 久久精品99国产| 18禁免费观看网站| 日韩va在线观看| 日本妇女毛茸茸| 久久国产香蕉视频| 黄色日韩网站视频| 国产精品丝袜91| 欧美精品v国产精品v日韩精品| 亚洲电影免费观看高清完整版在线| 中文字幕国产精品久久| 国产高清精品一区| 激情五月亚洲色图| 殴美一级黄色片| 亚洲第一视频在线播放| 成人动漫精品一区二区| 色综合久久中文字幕| 色噜噜久久综合伊人一本| 国产精品中文字幕在线观看| 黄瓜视频免费观看在线观看www| 中文字幕第九页| 小泽玛利亚一区二区三区视频| 久久99国产精品麻豆| 亚洲第一成人在线| 久久久精品久久久久| 国产美女精品在线观看| 久久久噜噜噜www成人网| 亚洲AV无码久久精品国产一区| 亚洲AV成人无码精电影在线| 探花视频在线观看| 精品一区二区三区日韩| 亚洲成人av资源| 欧美激情性做爰免费视频| mm131午夜| 一区二区视频免费看|