
科學家設計了一套新的測試,以衡量是否是否人工智慧(AI)代理可以在沒有人類指導的情況下修改自己的代碼並提高其功能。
名為“ MLE基礎”的基準是75的彙編Kaggle測試,每個人都是測試機器學習工程的挑戰。這項工作涉及培訓AI模型,準備數據集和運行科學實驗,而Kaggle測試測量了機器學習算法在特定任務上的表現。
OpenAI科學家設計了MLE基礎,以衡量AI模型在“自動駕駛機器學習工程”中的表現,這是AI可以面對的最難測試之一。他們在10月9日的紙上概述了新基準的細節arxiv預印度數據庫。
任何在構成MLE板凳的75個測試中得分良好的未來AI可能被認為是足夠強大的AI人工通用情報(AGI)系統 - 一種假設的AI,比人類聰明得多。
有關的:“未來你” AI讓您與自己的60年曆史版本交談 - 它具有令人驚訝的福利優勢
75個MLE基礎測試中的每一個都具有現實世界的實際價值。示例包括開放 - 疫苗- 尋找Covid-19的mRNA疫苗的挑戰 - 維蘇威挑戰賽用於解密古代捲軸。
科學家在論文中寫道,如果AI代理人自動執行機器學習研究任務,則可能會產生許多積極的影響,例如加速醫療保健,氣候科學和其他領域的科學進步。但是,如果沒有受到檢查,可能會導致不受限制的災難。
科學家寫道:“代理商進行高質量研究的能力可能標誌著經濟中的變革性一步。但是,能夠在改善自己的培訓法規的水平上執行開放式ML研究任務的代理商可以比人類研究人員更快地提高Frontier模型的能力。” “如果創新比我們理解其影響的能力更快,那麼我們冒著開發能夠造成災難性傷害或濫用的模型而無需並行發展,以確保,結盟和控制此類模型。”
他們補充說,任何可以解決MLE基礎的“大部分”的模型都可能單獨執行許多開放式機器學習任務。
科學家測試了Openai迄今為止設計的最強大的AI模型 - 稱為“O1。 ”“這個AI模型至少達到了MLE基礎測試中16.9%的Kaggle銅牌的水平。此數字改善了O1的嘗試越多。
獲得銅牌是在Kaggle排行榜中排名前40%的人。 Openai的O1模型平均在MLE板凳上獲得了7枚金牌,這比人類被認為是“ Kaggle Grandmaster”需要的兩個。科學家在論文中寫道,在75場不同的凱格格爾比賽中只有兩個人獲得了獎牌。
現在,研究人員正在開放式MLE板凳,以刺激AI代理的機器學習工程能力的進一步研究 - 從本質上講,其他研究人員可以針對MLE-Bench測試自己的AI模型。他們總結說:“最終,我們希望我們的工作有助於更深入地了解代理商在自主執行ML工程任務中的能力,這對於將來安全部署更強大的模型至關重要。”