Clase 7 Aprendizaje por Refuerzo Proceso de decisión de Márkov Ecuación de Bellman Algoritmos basados en política o en valor Soluciones iterativas Can it Play DOOM? Aplicación de Q-learning