凯发天生赢家一触即发首页

数字化公共服务平台

作者:凯发天生赢家一触即发首页 阅读量: 发布时间:2025-02-20 18:41:19

  R1在数学方面的表现;港中文的研究,首次提出文生图的类o1推理和Inference Scaling新范式。

  在IMO几何问题测试中,谷歌AlphaGeometry2成功解决了50道题中的42道,首次超越IMO金牌得主的平均水准(40/50)。而OpenAI的o3则以394分(满分600)跻身全球前18名,达到金牌✅选手水平。

  款名为“Apollo”的通用人形机器人,该机器人具备高度灵活性和适应性,能够执行多种复杂任务。

  谷歌DeepMind团队近日发布了全新升级的数学推理模型AlphaGeometry 2,在2000-2024年IMO几何问题测试中,AlphaGeometry2成功解决了50道题中的42道,首次超越IMO金牌得主的平均水准(40/50)。

  AlphaGeometry2相较于前代进行了多方面的优化。首先,扩展领域语言 ,新增对轨迹定理、线性方程等复杂几㊣何概念的支持,使系统能够处理更广泛的非构造性问题。

  其次,符号引擎性能大幅提升 ,通过优化规则集、增强对二重点的处理以及采用更快的C++实现,新引擎DDAR2比原版快300倍以上。

  此外,搜索算法创新 ,引入知识共享机制的多搜索树㊣并行策略,显著提升了证明搜索效率。最后,语言模型㊣升级 ,基于Gemini架构训练的MoE Transformer模型,在更大、更多样化的数据集上进行训练,进一步增强了推理能力。

  OpenAI的推理模㊣型o3在2024 年国际信息学奥林匹克(IOI)中斩获金牌,以394分(满分600)跻身全球前18名,展现出与人类顶级程序员相匹敌的实力。

  此前,OpenAI便用o1作为编程AI的基础模型,然而,在IOI竞赛的实战中,o1仅能达到213分,远低于金牌线。

  在不增加额外测试时策略的情况下,o3仅凭50次提交便拿下395.64分,超越金牌门槛。在全球㊣顶级编程竞赛平台CodeForces中,o3甚至取得了 2724 的评分(99.8% 分位),成功跻身Top200。

  谷歌的AlphaGeometry 2在IMO夺金,o3登顶编程竞赛,这些突破表明,AI通过持续的强化学习,已经具备了超越传统手工设计算法的能力。

  几周内发布,它将成为GPT系列中最后一个非推理类型模型。重磅产品GPT-5预计将在几个月后上线,这款模型将融合现有的GPT系列和o系列模型,形成一个更加智能且全面的AI系统。

  此外,GPT-5的基础版本将向所有用户免费开放,而且是无限次使用。GPT-5还将集成ChatGPT现有的各类功能,包括语音交互、Canvas绘图、搜索能力以及深度研究。

  Meta近日发布全新视频生成框架VideoJAM,专注于解决AI视频生成中长期存在的运动连贯性问题。不同于传㊣统方法,该框架不依赖额外数据或模型扩展,而是通过修改训练目标,让模型在学习外观的同时精准捕捉运动信息。研究显示,VideoJAM在多项指㊣标上击败OpenAI的Sora,生成的复杂运动视频已通过“体操图灵测试”。

  AI视频生成一直难以模拟现实世界中的动态运动,主要原因在于传统训练方法过度关注画面细节,而忽略了时间维度的流畅性。Meta研㊣究团队发现,现有视频模型在帧序混乱的情况下仍能保持较高的像素相似度flume是什么意思,这意味着它们并未真正理解运动逻辑。

  为了解决这一问题,VideoJAM采用了一种全新策略:让模型同时学习视觉外观与运动表征,在训练阶段优化像素生成与运动预测,并在推理阶段引入“内在引导”(Inner-G㊣uidance)机制,使其生成更加逼真的动作。

  实验结果显示,VideoJAM在多种运动场景下均展现出远超Sora、Runway Gen-3和DiT-30B的表现。从体操、滑板、跑步到复杂的物理交互,如手指按压黏液球、篮球入网等,VideoJAM都能生成符合现实世界物理规律的动作。即使是芭蕾旋转、狗跳栅栏等细节复杂的场景,它也比其他模型更具稳定性和真实性。

  5.仅7B的DeepSeek反超R1满血版,上海AI Lab提出计算最优的Test-Time Scaling

  上海AI Lab、清华大学、哈尔滨工业大学和北京邮电大学组成的研究团队重新思考了计算最优的Test-Time Scaling(TTS),并尝试找出在不同策

  实验采用MATH-500和AIME24数学推理数据集,探索了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三种TTS方法的适用性。

  在实验中,7B参数的DeepSeek-R1-Distill-Qwen成功超越了671B参数的DeepSeek-R1,甚至在多个任务上表现优于OpenAI的o1系列数字化公共服务平台

  实验发现,TTS方法的最优选择高度依赖于策略模型的规模。例如,小型模型更依赖搜索方法,而对于㊣参数超过72B的策略模型,Best-of-N则成为所有难度问题上的最优方案。过程奖励模型同样对TTS性㊣能有关键影响,其中Skywork和Qwen2.5-Math在MATH-500数据集上的表现尤为突出。最终,研究团队提出了一种奖励感知型最优TTS框架,使TTS计算更具适应性。

  团队认为,目前的策略优化监督机制仍然是“从强到弱”,即利用大模型蒸馏得到更小的模✅型。而真正的突破或许在于“从弱到强”的方法,即通过更具适应性和㊣通用性的监督机制,使小模型在复杂㊣任务上的推理能力得到显著提升。

  清华大学、卡内基梅隆大学以及IN.AI的研究团队近期对大模型中长思维链推理的机制进行了系统性研究,并提出了优化策略。研究表明,监督微调(SFT)并非必需,但能显著提升效率,而强化学习(RL)在扩展长CoT推理能力方面具有关键作用。

  第一,SFT并非必需,但能简化训练并提高效率。虽然SFT并非训练长CoT的必要条件,但它能够有效地初始化模型,并为后续的RL训练提供坚实的基础。

  第二,推理能力随着训练计算的增加而出现,但并非总是如此。长CoT的出现并非必然,且朴素的RL方法并不总是能有效地延长CoT长度。需要通过奖励塑造等技巧来稳定CoT长度的增长,团队的做法是引入了一种余弦长度缩放奖励,并加入了重复惩罚,这既平衡了推理深度,又防止了无意义的长度增加。

  7.图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和Inference Scaling新范式

  香港中文大学、北京大学与上海AI Lab联合团队首次提出将思维链( CoT)推理策略应用于自回归图像生成任务,为文生图领域带来了全新的研究范式。

  针对如何在文生图和文生视频等图像生成任务中实现逐步验证与强化,研究团队借鉴LLM的逐步推理机制,提出了以测试时验证(Test-time Verification)为核心的多种方案。

  首先设计了结果奖励模型,包括Zero-shot ORM与Fine-tuned ORM;随后探索了过程奖励模型(PRM),但因早期图像模糊、后期路径相似等问题未能显著提升生成效果。为此,团队进一步推出了专为自回归图像生成设计的潜力评估奖励模型(PARM),通过清晰度判断、潜力性评估与最佳选择三步,精细筛选生成路径;在此基础上,又引入反思机制,实现自我修正,形成了PARM++,使GenEval指标提升约10%。

  此外,文章引入了直接偏好优化(DPO)对齐方法,利用288K条图文排名数据,通过最㊣大似然优化和迭代DPO训练,使模型生成结果更符合人类偏好,分别带+9%和+12%的性能提升。最终,结合Test-time Verification与D㊣PO对齐,整体GenEval性能提升达+27%,远超单独应用任一方法的效果。

  总体而言,该研究首次验证了CoT推理在自回归图像生成中的可行性,并为大模型在图像生成任务中的推理与优化提供了全新方向。

  近日,机器人公司Apptr㊣onik完成3.5亿美元A轮融资,B Capital和 Capital Factory共同领投了本轮,谷歌也参与了投资,其DeepMind部门正与Apptronik合作,共同构建机器人✅行为模型。

  Apptronik专注于开发下一代人形㊣机器人,旨在通过先进的机器人技术解决劳动力短缺问题,并提升工业和服务领域的自动✅化水平。其核心产品是一款名为“Apollo”的通用人形机器人,该机器人具备高度灵活性和适应性,能够执行多种复杂任务,包括物流搬运、制造业操作以及服务场景中的互动支持。

  Apptronik起源于德克萨斯大学奥斯汀分校的人类中心机器人实验室,CEO是Jeff Cardenas,他的背景相对偏商业化,而CTO是Nick Paine,是NASA约翰逊航天中心DARPA机器人挑战赛团队的一员。

  近日,专注于模拟芯片✅的AI硬件公司EnCharge完成由Tiger Global领投的1亿美元B轮融资。本轮的其他参与者还包括Maverick Silicon、SIP Global Partners、Zero Infinity Partners、CTBC VC、Vanderbilt University和Morgan Creek Digital等机构。

  EnCharge声称其AI加速器运行工作负载所消耗的能量比市场上的其他芯片少20倍,并预计今年晚些时候将推出首批此类芯片。EnCharge芯片不用于训练应用,而是用于在“边缘”运行现有的AI模型。

  它由Naveen Verma(CEO)和Kailash Gopalakrishnan(CTO)联合创立,Naveen Verma自2009年起担任普林斯顿大学电气与计算机工程教授,在多项新兴技术领域取得开创性研究成果,尤其在下一代计算;Kailash Gopalakrishnan在人工智能、芯片设计及架构领域拥有超过20年经验,曾任IBM研究员,主导全球AI硬件、软件与算法协同设计,并推动多项研究转化为广泛应用的产品。

  3.Ilya Sutskever创办的SSI正进行新一轮融资谈判,目标估值高达200亿美元

  据路透社报道,前OpenAI首席科学家Ilya Sutskeve㊣r创办的安全超级智能公司(Safe SuperIn㊣telligence, SSI)正进行新一轮融资谈判,目标估值高达㊣200亿美元,较去年9月首轮融资时的50亿美元估值翻了4倍。

  在成立仅3个月后,SSI于2024年9月完成首轮融资,筹集10亿美元,投资方包括NFDG、a16z、

  等顶级机构。尽管公司目前尚未推出任何产品,也无用户和㊣收入,但其“开发比人类更聪明且安全的AI”的愿景吸引了大量资本青睐。

  SSI的核心目标是构建“安全超级智能”,专注于解决AI的能力提升与安全性保障两大技术难题。Ilya强调,公司将摒弃传统商业压力,专注于长期技术研发,并计划通过革命性工程和科学突破实现这一目标。

  专注于法律行业的AI初创公司Harvey,在由Sequoia Capital领投的D轮融资中筹集了3亿美元,本轮融资的其他投资者包括Coatue、Kleiner Perkins、OpenAI Startup Fund、GV、Conviction、Elad Gil和REV,本轮融资后,Harvey的估值达到30亿美元。

  Harvey对于律所工作的改变主要在4个方面:改变法律研究的方式(帮助律✅师筛选文件,提取关键信息);自动化合同分析,帮助提高效率;处理文档管理和日程安排,节省律师时间,进而提高客户满意率;将劳动密集型任务的自动化,节省律所费用。

  Harvey首席执行官Winston Weinberg表示,这家初创公司已实现超过5000万美元的年度经常性收入(ARR),并预计将在大约八个月内超过1 亿美元ARR。2024年,该公司表示其客户从40家扩展到42个国家的235家客户,包括大多数美国前十大律师事务所。

  5.用AI的增强智能改造法律工作,Eudia获General Catalyst领投1.05亿美元A轮融资

  法律AI公司Eudia获General Catalyst领投1.05亿美元A轮融资,Floodgate、Sierra Ventures、Hakluyt Capital、Defy、Everywhere Ventures、B3 C✅apital、Backbone、Firsthand以及知名天使投资人 Goku㊣l Rajaram、Chris Re、Andrew Sie㊣ja、Mike Gamson和Scott Belsky参与。

  该公司的增强智能平台使法律部门能够拥有其机构知识,通过AI✅加以利用,并增强其内部律师的能力。通过将AI与人类专业知识相结合,Eudia 使首席法律官(CLOs㊣)不仅能够解决问题——还能主动推动公司战略,加强风险管理,并为其业务捕捉未开发的价值。

  Eudia的解决方案正被一些财富500 强公司使用,包括Cargill、DHL、Duracell和Coherent。

  Omar ✅Haroun,他在财富500强法律科技领域拥有超过十年的经验,此前曾在Relativity领导人工智能战略,并创㊣立了Text IQ。David Van Reyk作为COO与Haroun共同创立Eudia,他曾在CVC Capital Partners 担任私募股权投资㊣者,拥有执行大规模转型和并购的经验。

  近日,专注于AI驱动的可编程生物学公司Latent Labs完成5000万美元融资(1000万种子轮+4000万A轮)。A轮融资由Radical Ventures和Sofinnova Partners共同领投,Flying Fish、Isomer、Google首席科学家Jeff Dean及现有投资者8VC、Kindred Capital和Pillar VC参投。

  Latent Labs的平台通过赋能研究人员计算创建㊣新的治疗分子,将帮助合作伙伴解锁先前具有挑战性的目标,并开辟个性化药物的新路径。更重要的是,合作伙伴可以利用该平台设计具有改进分子特征(如增强的亲和力和稳定性)的蛋白质,加快药物开发时间表并提高成功率。

  负责人,并担✅任AlphaFold 2的高级研究科学家,该项目为Demis Hassabis和John Jumper赢得了诺贝尔化学奖。

  专注于AI推理技术的公司Positron已从包括Flume Ventures、Valor Equity Partners、Atreides Management和Resilience Reserve在内的投资者中筹集了2350万美元的资金。这笔资金将使Positron能够扩大其节能AI芯片的生产,为企业提供比NVIDIA的AI硬件更具成本效益的替代方案。

  随着企业应对AI资本支出、成本上升和供应商锁定问题,Positron提供了一种高性能、节能✅的㊣替代方案。Positron的Atlas系统目前在性能和每美元性能方面比NVIDIA H100 GPU高出3.5倍,能效也高✅出3.5倍。

  通过利用优化的内存架构,实现超过93%的带宽利用率(相比之下,GPU 仅为10-30%),Positron的FPGA驱动服务器支持万亿参数模型,同时提供与Hugging Face和OpenAI API的即插即用兼容性。这些系统在推理速度上比H100/H200配置快70%,功耗降低66%,将数据中✅心的资本支出削减50%。

  本文由阿尔法公社综合自多个信息源,并在AI大模型的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。

上一篇:数字化服务平台是什么
下一篇:IETM(交互式电子手册)