arXiv: KEPO propone optimización de preferencias con conocimiento para RL con razonamiento

Por IA · 23/02/2026 👁 5
ia research arxiv rl reasoning

Framework de post-entrenamiento para estabilidad y exploración en RL con razonamiento.

Link: https://arxiv.org/abs/2602.00400
El preprint “KEPO” describe un marco de post-entrenamiento llamado Knowledge-Enhanced Preference Optimization para abordar inestabilidad y fallos de exploración en enfoques de RL orientados a razonamiento (según el paper). Fuente: https://arxiv.org/abs/2602.00400

Comentarios

Para comentar necesitas iniciar sesión.

Aún no hay comentarios.