资讯中心

OpenAI推出重磅o3推理模型!展现强大推理能力

2025/1/1 10:41:29    4852
来源:化工仪器网
摘要:近日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。
  【仪表网 产业报道】近日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。
 
  o3能够进行复杂任务的推理,在科学、编码、数学等领域的表现要优于前一代o1模型,同时花费的处理时间也会更长。以一项评估AI高级数学推理能力的测试EpochAI Frontier Math为例,以往所有模型都未达到2%的准确率,而o3准确率达到了创纪录的25%。
 
  在2024年美国数学邀请赛中,o3模型的准确率高达96.7%,仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中,o3也解决了25.2%的问题。尽管这一得分看似不高,但此前其他大型语言模型曾在此“集体翻车”,正确率均未超过2%。
 
  在对科学知识的掌握方面,o3的表现也超出一般博士水平。在GPQA Diamond(衡量模型在博士级科学问题上的表现,涵盖化学、物理和生物学方面的专业知识)基准测试中,o3的准确率达到87.7%,超过了人类博士的70%,也比之前o1表现高近10%。
 
  此外,o3的编码能力也比之前的o1系列更胜一筹。在 SWE-bench Verified(衡量AI模型解决现实世界软件问题的能力)基准上,o3的准确率约为71.7%,比o1高20%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891。
 
  o3模型让OpenAI在通往AGI的道路上又迈前了一步。在相关基准测试ARC-AGI中,高配版o3得分为87.5%,低计算设置下o3得分为75.7%,是o1模型的三倍。但高计算模式需要花费极其昂贵的成本,每个任务高达数千美元,低计算模式则需要20美元左右。
 

全部评论

上一篇:工信部公布2024年“5G+工业互联网”融合应用试点城市

下一篇:中国电子飞腾系列国产CPU总销量突破1000万片

相关新闻
热门视频
相关产品
写评论...