Обучение с утвърждение

В контекста на Изкуствения Интелект, терминът „Обучение с утвърждение“, или "Учене с подсилване" и "Учене с подкрепление" (анг. Reinforcement Learning) обозначава група от методи за автоматично самообучение. Тези методи се отличават със способността си да функционират без необходимост от примерни решения на поставения проблем. Обучението протича като последователност от пробни действия, които постепенно водят до утвърждаване на добрите действия и избягване на неподходящите.

Проблеми от този тип често се представят като агент, разположен в някакво обкръжение, който взима решения в зависимост от състоянието на това обкръжение. На свой ред обкръжението реагира с награда или наказание, в зависимост от това колко уместно е било избраното действие.

Резултатът от обучението е оптимална стратегия за действие във всяка ситуация. Стратегията е оптимална ако успява да максимизира сумата от всички награди получени по време на изпълнението си.

История и връзка с други области

Сред първите алгоритми за Обучение с утвърждение са т.нар. TD-Learning, разработен от Ричард Сътън през 1988, и Q-Learning, разработен 1989 и публикуван 1992 година.

Тези методи са също така свързани с теорията на оптималния контрол. Обучението с утвърждение често пъти се разглежда като дискретен Марковски процес. Агентът взима решения на дискретни стъпки и всяко следващо решение зависи само от текущото състояние на обкръжението, а не цялата история от предишни състояния. Тази формулировка на проблема е въведена от Белман през 1957 година.

Формализъм

Обучението чрез утвърждение може да се разглежда като комбинация от три елемента:

Множество $S$ , включващо всички състояния на обкръжението които агентът разпознава
Множество $A$ , включващо всички действия, които агентът може да извърши
Множество $\mathbb {R}$ , включващо наградата която агентът може да получи

При дадено състояние $s\in S$ и $a\in A$ , агентът получава награда $r\in \mathbb {R}$ Тази функционална зависимост може да бъде записана по следния начин:

S\times A\rightarrow \mathbb {R}

Целта на агента е да открие такава стратегия $\pi :S\rightarrow A$ , която максимизира сумарната награда получени на всяка стъпка:

R=r_{0}+r_{1}+r_{2}+...+r_{N}

Обикновено наградата в близките състояния на обкръжението е много по-важна от тази на далечните бъдещи състояния. Тази зависимост може да бъде отразена чрез въвеждането на коефициент гама:

R=r_{0}+{\gamma }r_{1}+{\gamma ^{2}}r_{2}+...+{\gamma ^{N}}r_{N}

Източници

Sutton, Richard S. и др. Reinforcement Learning: An Introduction. MIT Press, 1998. ISBN 0-262-19398-1. Архив на оригинала от 2009-09-04 в Wayback Machine.
Арнаудов, Тодор. Двигатели на човешкото поведение. Бихевиоризъм - учене с подсилване. Учене с учител и подражание. Лекция от първия в света курс по "Универсален изкуствен разум" (Artificial General Intelligence), проведен в Пловдивския университет "Паисий Хилендарски", 2010.
Арнаудов, Тодор. Универсална интелигентност: Дефиниция на агента на Маркус Хутер Лекция по статията на Лег и Хутер "Universal Intelligence: A Definition of Machine Intelligence", от първия в света курс по "Универсален изкуствен разум" (Artificial General Intelligence), проведен в Пловдивския университет "Паисий Хилендарски", 2010.
Арнаудов, Тодор. Reinforcement Learning Terminology and Lectures - Учене с подсилване, учене с подкрепление, подкрепящ стимул, подкрепление и др. термини. Архив на оригиналната публикация от 9.7.2013.