Skip to content

关于UI-R1-E-3B的训练过程 #21

@caseclose

Description

@caseclose

想要复现您对于UI-R1-E-3B的消融实验。我使用了UI-R1-3B在136条数据上的训练方式,对于2k数据进行了1个epoch的GRPO训练,但是在Screenspot上的实验效果仅仅达到79.6%,请问有其他的实验细节需要注意吗,比如epoch数需要设置更多?但是感觉Reward曲线已经接近于稳定。

Image Image Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions