【LEYU科技动静】近期,科技界最为热议的辞汇非“DeepSeek”莫属。据悉,DeepSeek-R1于数学、代码天然语言推理等范畴的体现,已经经可以或许与OpenAI的GPT-1正式版相媲美,其火爆水平囊括全世界。而近来,DeepSeek的研究员于线吐露了一个动静:R1的练习历程仅仅耗时两到三周,研究员们于春节时期也未停息,继承全力推进研究,接下来还有有年夜招。

几天前,Daya Guo发布了一条推文,分享了他春节时期最为高兴的工作——亲眼眼见了R1-Zero模子机能曲线的“连续增加”,并深入感触感染到了强化进修(RL)的强盛气力。于答复网友关在DeepSeek R1的问题和公司后续规划时,Daya Guo吐露,DeepSeek的R1只是一个最先,内部研究正于快速推进。他夸大,研究员们于春节时期一直于加班加点地推进研究。


对于在网友发问的“假如不是奥秘的话,此次RL练习跑了多久?”Daya Guo回应称,660B参数的R1-Zero及R1是于V3版本发布后才最先练习的,整个历程约莫破费了2-3周的时间。此外,他还有吐露团队正于测验考试将R1运用在情势化证实情况,并但愿尽快向社区发布越发优异的模子。从Daya Guo的言辞中不丢脸出,他们于这方面已经经取患了进展,将来或者将有更多重量级的模子问世,使人布满期待。
版权所有,未经许可不患上转载
-leyu.com