请问作者在sft后的RL的第一次采样成功率大概在多少?我这边使用了另外一个框架做复现,发现sft权重的初始SR只有40%,不清楚是否正常
请问作者在sft后的RL的第一次采样成功率大概在多少?我这边使用了另外一个框架做复现,发现sft权重的初始SR只有40%,不清楚是否正常