Instruction - 搜索 News

只需几十个样本即可训练专家模型，强化微调RLF能掀起强化学习热潮吗？具体技术实现尚不清楚，AI2此前开源的RLVR或许在技术思路上存在相似之处。在2016年的NeurIPS会议上，图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」： ...

7 小时

微软下一代14B小模型Phi-4出世了！仅用了40%合成数据，在数学性能上击败了GPT-4o，最新36页技术报告出炉。最近，微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上，其数学性能直接碾压GPT-4o、Gemini Pro 1.5 ...

一些您可能无法访问的结果已被隐去。

今日热点