Qwen/Qwen3-4B-Instruct-2507

非常有趣的工作，另外想问一下作者有尝试**Qwen/Qwen3-4B-Instruct-2507** 在 **BIRD dev** 上的效果吗？
我这边发现这个模型达到了**EX Accuracy (greedy search): 0.6173402868318123** ，这合理吗？
不知是不是我的测评方法问题：
测评数据: cycloneboy/bird_train (validation)
脚本：
OmniSQL/train_and_evaluate/infer.py
OmniSQL/train_and_evaluate/evaluate_bird.py