WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization

Under review at ICML 2026

Weakly-Supervised Group-Relative Policy Optimization (WS-GRPO) applies GRPO for variational inference in AI-Agentic benchmarks and LLM-based topic modeling evaluation frameworks.