RGSD

Public

Reproduce Rubric-Guided Self-Distillation (2606.12507): RGSD vs judge-based GRPO on RubricHub-medical, Qwen-2.5-3B-Instruct, on SkyRL. Judge=gpt-4o-mini via OpenRouter. Baseline=base+conditioning-lift; children=GRPO arm, RGSD arm.

alphaXiv/skyrl-ca3ca5cf-4208b8be

No experiments yet.

GitHubskyrl-ca3ca5cf-4208b8be