Mohamed Terry Jack
En el corazón de un robot hay una política que le dice qué hacer (es decir, qué acción tomar) en cualquier situación dada. Esto puede ser una colección de reglas simples o una función matemática compleja. Pero, ¿cómo saber cómo deberían ser las reglas o la función matemática? Afortunadamente, existen algoritmos de aprendizaje automático para aproximar la función (por ejemplo, máquinas de núcleo, aprendizaje profundo, etc.) o inferir automáticamente estas reglas (por ejemplo, programación lógica inductiva, bosques aleatorios, etc.). Sin embargo, los algoritmos de aprendizaje supervisado requieren una gran cantidad de datos de entrenamiento que pueden no estar disponibles. Los métodos evolutivos (por ejemplo, algoritmos genéticos) y otros algoritmos de optimización no requieren ningún dato de entrenamiento para evaluar y buscar a través de un espacio de políticas y encontrar las reglas o la función óptimas. Alternativamente, al equiparar directamente la política a una búsqueda (a través de un espacio de estado/acción-estado) como se hace en el aprendizaje de refuerzo, la siguiente mejor acción se puede encontrar utilizando una función de evaluación aprendida (por ejemplo, función V o Q).