2 月 12 日晚间新闻,在中国 AI 公司的影响下,OpenAI 公然了 O 系列强化进修的机密。明天(2 月 12 日),OpenAI 宣布了对于推理模子在竞技编程中利用的研讨论文讲演《Competitive Programming with Large Reasoning Models》,文中放出了 OpenAI 三个推理模子:o1、o1-ioi、o3 在 IOI(国际信息学奥林匹克比赛)跟 CodeForces(寰球著名在线编程比赛)中的成就。论文表现,在 IOI 2024 中,o3 在严厉规矩下拿到 395.64 分,告竣金牌成绩,而且在 CodeForces 上的表示与人类精英选手相称。论文中还提到,中国的 DeepSeek-R1 跟 Kimi k1.5 经由过程自力研讨表现,应用头脑链进修(COT)方式,可明显晋升模子在数学解题与编程挑衅中的综合表示。R1、k1.5 是 DeepSeek 跟 Kimi 在 1 月 20 日同时宣布的新型推理模子。该论文经由过程强化进修(RL)练习的年夜型言语模子在庞杂编码跟推理义务上的机能晋升,比拟了通用推理模子与针对特定范畴优化的体系在竞技编程中的表示。研讨成果标明,增添强化进修练习盘算跟测试时盘算可明显晋升模子机能,使其濒临天下顶尖人类选手,这些模子将在迷信、编码、数学等范畴的 AI 利用中解锁新的利用休会。