o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰
Posted Time: 2024 December 21 07:28
Authorelectronics workshop
IT之家 12 月 21 日消息,“12 Days of OpenAI”活动已拉上帷幕,OpenAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。
名称
最新的 AI 模型为何跳过 o2,叫做 o3 呢?OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)在今天早上的直播活动,表示是为了规避和英国电信运营商 O2 的商标冲突。
邀请安全测试
o3 是 o1 推理模型的继任者,包含完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。
OpenAI 公司暂未完全开放 o3 和 o3-mini 两款模型,即日起先邀请安全研究人员,注册测试预览版 o3-mini 模型,后续再推出 o3 预览版。
Image 6Image 7
现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/。
阿尔特曼并未公布 o3 模型的具体开放日期,仅透露 2025 年 1 月底推出 o3-mini,后续再推出 o3。
o3 模型推理
OpenAI o3 模型和主流 AI 模型的一个最大不同点,在于会展开事实核查,从而可以规避一些常见的模型陷阱,但这个过程会产生响应延迟,根据推理难度,通常是几秒到几分钟。
o3 系列模型的另一个亮点是使用“私人思想链”(private chain of thought)进行“思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案。
o3 的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3 的任务执行性能越好。
性能和 AGI
AGI 的全称是 artificial general intelligence,直译过来就是通用人工智能,泛指 AI 可以像人类一样执行任何任务,OpenAI 公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。
OpenAI 公司正积极朝 AGI 目标迈进,除了巩固其在 AI 领域的地位之外,还在投资领域有特别的含义。
根据 OpenAI 与密切合作伙伴和投资者微软的交易条款,一旦 OpenAI 达到 AGI,公司就不再有义务向微软提供其最先进的技术(即符合 OpenAI 的 AGI 定义的技术)。
而 o3 是 OpenAI 是迈向该目标的重要一步,在 ARC-AGI 基准测试中,o3 在高计算设置下获得了 87.5% 的分数,在低计算设置下得分为 75.7%,性能是 o1 的三倍。
ARC-AGI 联合创始人 François Chollet 表示,诚然高计算设置非常昂贵,每个任务要花费数千美元。
Image 20Image 21
IT之家援引该媒体报道,在其他基准测试中,o3 表现出色:
在 SWE-Bench Verified 编程任务基准测试中,o3 比 o1 高出 22.8 个百分点;在 Codeforces 编程技能测试中,o3 获得了 2727 的评分;在 2024 年美国数学邀请赛中,o3 得分 96.7%;在 GPQA Diamond 研究生水平生物、物理和化学测试中,o3 得分 87.7%;在 EpochAI 的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题(其他模型均不超过 2%),创造了新纪录。
Image 24Image 25Image 26
这些结果来自 OpenAI 的内部评估,需要等待外部客户和机构的基准测试结果来进一步验证。
安全
o3 的发布标志着 OpenAI 在通用人工智能领域迈出了重要一步。虽然 o3 的能力令人印象深刻,但其潜在风险也需要引起重视。OpenAI 承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。
Products
Bincial APPUser Dashboard
About Us
COMPANY PROFILEJoin us
User Agreement
Privacy Policy
CONTACT US
Collab:135-8566-0971
Support:021-61673695
Link:support@bincial.com
Addr.:Lane 1220, Yuqiao Road, Pudong New Area, Shanghai
DownloadAPP
Channels
WeChat
WeChat
Douyin
Kuaishou
Copyright© Shanghai Bozhi Technology Co., Ltd. Shanghai ICP No. 2023012989-4