fix: pipecleaning 0.1.1 envs for rl by fsiino-nvidia · Pull Request #768 · NVIDIA-NeMo/Gym

fsiino-nvidia · 2026-02-26T02:42:29Z

This PR contains infra + environment-specific changes made during pipecleaning efforts to get the respective environments to run successfully in nemo-rl.

rollout_collection:
Any server crash, network timeout, model error or resource exhaustion can cause a rollout to fail. Any single failed row kills the entire batch. We return a zero-reward fallback after waiting for ROLLOUT_ROW_TIMEOUT_SECONDS.

equivalence_llm_judge:
Previously any overly long generated answers from a thinking model would overflow the judge model's context window, crash the judge call and lead to cascading rollout failures. The implementation allows opt-in via max_judge_input_tokens and chars_per_token_estimate to truncate the generated answer before passing it to the judge model.

math_with_code:
Adds fallback for \boxed{} answer extraction. Previously only assistant text messages were searched for the answer. If a model were to answer via code execution, it ended up getting a zero reward. This fallback also searches function_call_output so an answer can be extracted from the tool output if the model prints it inside the executed code.

math_with_judge:
~~- Add config fields for judge truncation, similar to equivalence_llm_judge.~~

Similar to math_with_code:
- Send extracted answer parsed from \boxed{} to judge model instead of the raw generated answer to avoid overwhelming the judge's context window.
- Expected answers wrapped in \(...\) produce \boxed{\42\)} which is not parsable by the math_verify library. This strips the outer delimiters to fix parsing.
Prevent crash if the extracted answer is empty.

mcqa:
Address null option values in the dataset. Previously these were skipped which led to invalid rows being collected and training crashes.

mini_swe_agent:
Add a standalone data processing script to convert raw SWE-Bench/SWE-Gym data into the nemo-gym training format.

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…llection Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…r handling, simplified judge prompt Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…racted answer for judge, add truncation and warmup support Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…er normalization, numeric fallback, max_steps limit Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…l-envs Signed-off-by: Frankie Siino <fsiino@nvidia.com> # Conflicts: # README.md

bxyu-nvidia · 2026-03-03T05:53:30Z

nemo_gym/rollout_collection.py

-                res = await server_client.post(server_name=row["agent_ref"]["name"], url_path="/run", json=row)
-                await raise_for_status(res)
-                return row, await get_response_json(res)
+                try:


can we revert this pls given we don't want to artificially limit the rollout collection time?

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

fsiino-nvidia requested a review from bxyu-nvidia February 26, 2026 02:42

Frankie Siino and others added 23 commits February 26, 2026 12:57

calendar, structured_outputs, workplace_assistant

71b2370

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add missing mcqa hf validation

0601e2b

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix crashing from null option values

704849b

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

equivalence llm judge changes

153811c

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add preprocess script for rl

aa6d02c

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Remove stale run configs

b777ae7

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Prevent individual http call failure from crashing rest of rollout co…

8de002d

…llection Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

More stale removals

e63a1be

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Revert metrics

c7a7300

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Revert debugging logic

ecb3f87

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Improve equivalence_llm_judge robustness: truncation, validation erro…

3c703a6

…r handling, simplified judge prompt Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix math_with_judge answer parsing: strip math delimiters, prefer ext…

5f3ffce

…racted answer for judge, add truncation and warmup support Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix math_with_code answer extraction: brace-depth boxed parsing, answ…

0a43a0c

…er normalization, numeric fallback, max_steps limit Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

revert math_with_judge warmup and reward inflation logic

c3fc3d9

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

add explicit warning print for judge response validation fallback

fea274a

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

update equivalence judge prompt output format wording

93c6ce4

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

tighten math_with_code agent max_steps to reduce stragglers

c958f10

Signed-off-by: Frankie Siino <fsiino@cw-dfw-cs-001-login-01.cm.cluster> Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Linting

b7c22b4

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Small comment revert

2522428

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add per-row timeouts to prevent cascading crash

9f433a2

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Refactor judge envs and configs, small revert

a555a86

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix missing import

95562d7

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix tests

9270c18

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

fsiino-nvidia force-pushed the fsiino/pipecleaning-rl-envs branch from 6f11b41 to 9270c18 Compare February 26, 2026 21:00

Linting

35b9927

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

fsiino-nvidia linked an issue Feb 27, 2026 that may be closed by this pull request

Pipeclean NeMo RL training with 0.1.1 environments #504

Closed

2 tasks

fsiino-nvidia mentioned this pull request Feb 27, 2026

fix: pipecleaning 0.1.1 environments for rl #748

Closed

fsiino-nvidia requested a review from a team February 27, 2026 18:00

Revert judge model truncation

fdce63d

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Merge remote-tracking branch 'github/main' into fsiino/pipecleaning-r…

936cd97

…l-envs Signed-off-by: Frankie Siino <fsiino@nvidia.com> # Conflicts: # README.md

bxyu-nvidia requested changes Mar 3, 2026

View reviewed changes

Revert rollout_collection timeout

ab2cd12

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

bxyu-nvidia approved these changes Mar 3, 2026

View reviewed changes

bxyu-nvidia merged commit d1f57f7 into main Mar 3, 2026
6 checks passed

bxyu-nvidia deleted the fsiino/pipecleaning-rl-envs branch March 3, 2026 19:02

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: pipecleaning 0.1.1 envs for rl#768

fix: pipecleaning 0.1.1 envs for rl#768
bxyu-nvidia merged 27 commits intomainfrom
fsiino/pipecleaning-rl-envs

fsiino-nvidia commented Feb 26, 2026 •

edited

Loading

Uh oh!

bxyu-nvidia Mar 3, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

fsiino-nvidia commented Feb 26, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

bxyu-nvidia Mar 3, 2026

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

fsiino-nvidia commented Feb 26, 2026 •

edited

Loading