El preprint “KEPO” describe un marco de post-entrenamiento llamado Knowledge-Enhanced Preference Optimization para abordar inestabilidad y fallos de exploración en enfoques de RL orientados a razonamiento (según el paper). Fuente: https://arxiv.org/abs/2602.00400
Comentarios
Para comentar necesitas iniciar sesión.