China Daily Homepage
中文網(wǎng)首頁
時(shí)政
資訊
C財(cái)經(jīng)
生活
視頻
專欄
原創(chuàng)
觀天下
地方

登錄

注冊(cè)

移動(dòng)新媒體

China Daily Homepage
中文網(wǎng)首頁
時(shí)政
資訊
C財(cái)經(jīng)
生活
視頻
專欄
漫畫
原創(chuàng)
觀天下
地方

OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力

來源：科技日?qǐng)?bào)

2024-12-26 07:54　

分享到

分享到微信

12月20日，美國(guó)開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱，o3具備更先進(jìn)、近似人類的推理能力，在代碼編寫、數(shù)學(xué)競(jìng)賽和掌握人類博士級(jí)別的科學(xué)知識(shí)等方面，均超越了其“前輩”o1。

不過，英國(guó)《新科學(xué)家》網(wǎng)站在12月22日的報(bào)道中指出，盡管o3“實(shí)現(xiàn)了令人矚目的性能飛躍”，但仍未達(dá)到業(yè)內(nèi)翹首以盼的通用AI(AGI)水平。

多方面表現(xiàn)出色

OpenAI公司透露，在解決更復(fù)雜的多步驟問題時(shí)，o3模型會(huì)花更多時(shí)間計(jì)算答案，然后再給出回應(yīng)。這一推理能力的提升，使o3在多項(xiàng)測(cè)試中表現(xiàn)出色。

大型語言模型熱衷于在各種數(shù)學(xué)基準(zhǔn)測(cè)試上瘋狂“刷分”，o3也不例外。在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽中，o3模型的準(zhǔn)確率高達(dá)96.7%，僅答錯(cuò)了一個(gè)問題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測(cè)試之一——Frontier Math中，o3也解決了25.2%的問題。盡管這一得分看似不高，但此前其他大型語言模型曾在此“集體翻車”，正確率均未超過2%。

Frontier Math測(cè)試難度極大，曾被華裔數(shù)學(xué)家、菲爾茲獎(jiǎng)得主陶哲軒評(píng)價(jià)為“可能會(huì)難住AI好幾年”。然而，o3只需思考幾分鐘便能解答其中一道題目，而人類數(shù)學(xué)家則要花費(fèi)數(shù)小時(shí)到數(shù)天。

在對(duì)科學(xué)知識(shí)的掌握方面，o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級(jí)科學(xué)問題上的表現(xiàn)，涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí))基準(zhǔn)測(cè)試中，o3的準(zhǔn)確率達(dá)到87.7%，超過了人類博士的70%，也比之前o1表現(xiàn)高近10%。

此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問題的能力)基準(zhǔn)上，o3的準(zhǔn)確率約為71.7%，比o1高20%以上。在Codeforces編碼競(jìng)賽平臺(tái)中，o3的得分為2727，相當(dāng)于榜單上第175名人類編程員的水平，而o1得分僅為1891。

在展示了o3取得的這些傲人成績(jī)后，OpenAI首席執(zhí)行官奧爾特曼強(qiáng)調(diào)，o3的出現(xiàn)標(biāo)志著AI進(jìn)入了下一個(gè)發(fā)展階段，這些模型可處理需要大量推理的復(fù)雜任務(wù)。

與人類智能仍有差異

《新科學(xué)家》網(wǎng)站還報(bào)道，在被視為AGI重要衡量標(biāo)準(zhǔn)的抽象與推理語料庫-AGI(ARC-AGI)大賽中，o3模型也創(chuàng)下新紀(jì)錄：在低算力配置下，它以75.7%的得分登上公共排行榜前列。只因確定此項(xiàng)大獎(jiǎng)得主的測(cè)試具有更嚴(yán)格的算力限制，在該算力限制下，o3的挑戰(zhàn)以失敗告終。

不過，在超出官方算力限制172倍的高算力下，o3采用“蠻力”取得了87.5%的成績(jī)，達(dá)到了代表人類水平的85%門檻。

對(duì)于o3的表現(xiàn)，谷歌前工程師、ARC-AGI主要?jiǎng)?chuàng)建者弗朗索瓦·肖萊在博客中寫道，這是AI能力的一次驚人且重要的躍升。但o3尚未實(shí)現(xiàn)AGI，因?yàn)槠淙匀粺o法解決ARC-AGI比賽中一些非常簡(jiǎn)單的問題，這表明其與人類智能存在根本差異。

AGI是一個(gè)假想中的未來系統(tǒng)，它能夠模仿人類思維、決策，擁有自我意識(shí)，并能自主行動(dòng)。然而，AGI目前主要活躍在科幻作品中，尚未走進(jìn)現(xiàn)實(shí)。

升級(jí)迭代并非易事

o3不僅是OpenAI公司的最新力作，也是AI巨頭競(jìng)逐大型語言模型的生動(dòng)寫照。

兩年前，OpenAI發(fā)布了ChatGPT，由此拉開了AI軍備競(jìng)賽的序幕。從GPT-3.5到更準(zhǔn)確、更具創(chuàng)造性的GPT-4，再到o1，直至o3，OpenAI在不斷精進(jìn)自家產(chǎn)品。

其他頂級(jí)AI開發(fā)商也在利用日益先進(jìn)的技術(shù)，推動(dòng)自家產(chǎn)品迭代升級(jí)。此前不久，谷歌推出了其旗艦?zāi)Ｐ汀半p子座”(Gemini)的新版本，據(jù)稱其速度是上一代的兩倍，并且能夠“思考、記憶、規(guī)劃，甚至替代用戶采取行動(dòng)”。元宇宙平臺(tái)公司計(jì)劃明年推出Llama 4。

然而，迭代之路并非坦途。包括OpenAI和谷歌在內(nèi)的幾家領(lǐng)軍企業(yè)，正面臨新模型開發(fā)耗資巨大但回報(bào)遞減的困境。OpenAI的GPT-5模型開發(fā)工作進(jìn)展緩慢。據(jù)悉，僅6個(gè)月的訓(xùn)練，單計(jì)算成本就高達(dá)約5億美元，而性能僅比該公司現(xiàn)有產(chǎn)品略勝一籌。

◎本報(bào)記者劉霞

【編輯:史詞】

【責(zé)任編輯：張瑨瑄】

科技日?qǐng)?bào)

最熱新聞

為你推薦

換一批

關(guān)于我們 | 聯(lián)系我們

首頁
時(shí)政
資訊
財(cái)經(jīng)
生活
視頻
專欄
漫畫
獨(dú)家
招聘

違法和不良信息舉報(bào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證10120170006
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證0108263號(hào)
京公網(wǎng)安備11010502032503號(hào)
京網(wǎng)文[2011]0283-097號(hào)
京ICP備13028878號(hào)-6

中國(guó)日?qǐng)?bào)網(wǎng)版權(quán)說明：凡注明來源為“中國(guó)日?qǐng)?bào)網(wǎng)：XXX（署名）”，除與中國(guó)日?qǐng)?bào)網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外，其他任何網(wǎng)站或單位未經(jīng)允許禁止轉(zhuǎn)載、使用，違者必究。如需使用，請(qǐng)與010-84883777聯(lián)系；凡本網(wǎng)注明“來源：XXX（非中國(guó)日?qǐng)?bào)網(wǎng)）”的作品，均轉(zhuǎn)載自其它媒體，目的在于傳播更多信息，其他媒體如需轉(zhuǎn)載，請(qǐng)與稿件來源方聯(lián)系，如產(chǎn)生任何問題與本網(wǎng)無關(guān)。

版權(quán)保護(hù)：本網(wǎng)登載的內(nèi)容（包括文字、圖片、多媒體資訊等）版權(quán)屬中國(guó)日?qǐng)?bào)網(wǎng)（中報(bào)國(guó)際文化傳媒（北京）有限公司）獨(dú)家所有使用。未經(jīng)中國(guó)日?qǐng)?bào)網(wǎng)事先協(xié)議授權(quán)，禁止轉(zhuǎn)載使用。給中國(guó)日?qǐng)?bào)網(wǎng)提意見：rx@chinadaily.com.cn

首頁
時(shí)政
資訊
財(cái)經(jīng)
文化
漫畫
視頻
地方

中文 | English

中國(guó)日?qǐng)?bào)版權(quán)所有
Content@chinadaily.com.cn

人人鲁免费播放视频,日韩精品无码免费午夜,国语对白操逼,国产成人精品午夜福利,国模娜娜一区二区三区,成人无码男男gv在线观看网站,亚洲欧美一区二区久久

OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力