Машинное обучение: Обучение с подкреплением. Воронцов Константин

1057

Воронцов Константин  рассказывает об обучении с подкреплением.

  1. Задача о многоруком бандите
  • Простая постановка задачи
  • Жадные и полужадные стратегии
  • Адаптивные стратегии
  1. Общий случай: среда с состояниями
  • Общая постановка задачи
  1. Метод временных разностей
  • Методы TD(0), SARSA, Q-обучение
  • Методы TD (ƛ), SARSA (ƛ), Q (ƛ)
  • Метод VDBE

воронцов обучение с подкреплением слайды