aerosta

aerosta

Achievements

rewardhackwatch rewardhackwatch Public

Runtime detector for reward hacking and misalignment in LLM agents (89.7% F1 on 5,391 trajectories).

Python 10