RFT - a Paipile Collection

Paipile 's Collections

RFT

updated Sep 26, 2025

Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24, 2025 • 318
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Paper • 2507.15758 • Published Jul 21, 2025 • 35
Hierarchical Budget Policy Optimization for Adaptive Reasoning

Paper • 2507.15844 • Published Jul 21, 2025 • 17
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

Paper • 2507.16814 • Published Jul 22, 2025 • 21
RePO: Replay-Enhanced Policy Optimization

Paper • 2506.09340 • Published Jun 11, 2025
Perception-Aware Policy Optimization for Multimodal Reasoning

Paper • 2507.06448 • Published Jul 8, 2025 • 48
On-Policy RL with Optimal Reward Baseline

Paper • 2505.23585 • Published May 29, 2025 • 14
EXPO: Stable Reinforcement Learning with Expressive Policies

Paper • 2507.07986 • Published Jul 10, 2025
Geometric-Mean Policy Optimization

Paper • 2507.20673 • Published Jul 28, 2025 • 32
Single-stream Policy Optimization

Paper • 2509.13232 • Published Sep 16, 2025 • 34
MAPO: Mixed Advantage Policy Optimization

Paper • 2509.18849 • Published Sep 23, 2025 • 27