

sp; 2. 模型中的任务会 “打架”:在机器学习中很多任务是没法用一个统一的 loss function 来表达的,并且是不能用一个模型来学出来的。语言模型这块有一点不一样,首先 raw data 的 representation 是一致的,然后,通过 pre-training 和 scaling law 会抵消很多,但是还是有一些迹象。比如,快慢思考合一(非 prompt 切换)我们
当前文章:http://cbb3.kuntaobai.cn/0ccv/s2j.html
发布时间:17:35:11
栏目相关
热门排行