Обучение с подкреплением: базовый курс

Хотите научиться создавать умные системы, которые сами принимают решения и адаптируются к любым условиям? Этот курс поможет вам освоить технологии будущего! Сможете разрабатывать машины результатов, которые умеют оптимизировать окружающую среду в соответствии с запросами пользователя. Курс подойдёт как студентам, так и опытным специалистам, желающим углубить свои знания в машинном обучении.

Для всех
На русском языке
12 часов

Бесплатно

Условия акции

Посмотреть программу

Чему вы научитесь

Понимать основы обучения с подкреплением
Использовать методы аппроксимации в RL, включая алгоритмы DQN, Monte-Carlo и Dueling Monte-Carlo
Разбираться в методах для непрерывных пространств действий, поиска решения в пространстве стратегий
Применять продвинутые алгоритмы: Actor-Critic и Model-Based RL

Содержание курса

Курс состоит из 6 модулей, в которых есть видео и тесты для самопроверки и закрепления материала.

6 модулей
6 тем
12 часов

Многорукие бандиты
- Введение в машинное обучение с подкреплением
- Класс задач «многорукий бандит»
- Основные алгоритмы многорукого бандита
Марковские процессы принятия решений
- Концепция марковских процессов принятия решений
- Марковские процессы принятия решений. Примеры
- Дилемма глубины планирования
- Функция ценности состояния и функция ценности действия
- Уравнение Белмана и его применение
Аппроксимация в RL
- Написание алгоритма DQN
- Алгоритмы Monte-Carlo и Dueling Monte-Carlo
Алгоритмы для непрерывного пространства действий. Методы итерации по стратегиям
- Подход «Нейроэволюция»
- Подход «Генетический алгоритм»
- Градиентные методы поиска стратегии
- Теорема о градиенте стратегии

Авторы курса

Артём Хусаенов
Руководитель направления по исследованию данных в Сбере
Приглашённый эксперт НИУ ВШЭ
Сергей Довгань
Руководитель направления по исследованию данных в Сбере
Приглашённый эксперт НИУ ВШЭ

Обучение с подкреплением: базовый курс

Чему вы научитесь

Содержание курса

Многорукие бандиты

Марковские процессы принятия решений

Аппроксимация в RL

Алгоритмы для непрерывного пространства действий. Методы итерации по стратегиям

Авторы курса

Артём Хусаенов

Сергей Довгань