问题：关于评测流程的设计

感谢作者们开源这个优秀的工作！但我在复现过程中遇到一个问题，麻烦作者百忙中给予回复，不胜感激！

问题描述;
我注意到当前的 `eval.py` 评测流程并没有使用完整的自回归生成流程。输入的 input_ids 已经包含了 ground truth 答案中的 [SEG] token，模型直接从这些预标记的位置提取 hidden state 生成 mask。

我的疑问：
 这是项目的设计选择吗？如果是，主要考虑是什么？这样是怎么评测模型的推理能力的？（因为没有生成文本，看不到中间的推理过程）

期待您的回复！