桃源乡周报 第二十三期
将自己在本周(2.3-2.9)看到的有趣、有用、有启迪的文章、书籍、音乐、影视等,汇总成一篇摘要,既做回顾,也做分享。 文章 Deepseek 带来的意义投射 原文地址: https://mp.weixin.qq.com/s/NMFfM373R3MgiLsJczSRxw DS一项重要的创新是,使用强化学习(RL)来训练模型的思维链(CoT):从普通的预训练模型开始,在第二阶段使用强化学习推理思维链,被称为reasoning模型,OpenAI的o1/o3 类模型就是此类。与之前模型的区别在于人类反馈不再重要。 ...