Markov Process
확률론적 모델로, 현재 상태만을 바탕으로 미래 상태를 예측하는 프로세스
미래의 상태는 현재 상태에만 의존하고 과거 상태에는 의존하지 않는 특성을 가진다.
Markov Reward Process
Markob Process에서 각 상태의 보상가치를 평가할 수 있다고 추가로 가정한다.
상태와 행동 간의 전이와 관련된 보상을 모델링하며, 이를 통해 에이전트의 정책을 평가하고 최적의 정책을 찾는 데 사용된다.
Markov Decision Process( MDP)
Markov Reward Process에 의사결정 단계가 추가된다.
강화 학습 및 결정 이론의 핵심 개념으로, 에이전트가 환경과 상호작용하며 최적의 의사결정을 하는 문제를 모델링하는 수학적 프레임워크
MDP는 상태와 행동의 상호작용을 통해 보상을 최대화하는 방법을 설명한다. 즉 MDP의 목표는 최적 정책을 찾아 장기적 보상을 최대화 하는 것이다.
상태( S ,state), 행동( A, action), 정책( ,policy), 보상( R , reward), 전이 확률( P ,transition probability) 등 다섯 가지 주요 요소로 구성된다.
value Function
action-value function
state와 action이 주어졌을때 미래의 가치를 나타내는 function
action없이 state만 고려하는 state-value function도 있다.
Iterative Policy Evaluation
주어진 정책을 평가한다.
(Greedy) Policy Improvement
최대 수익률의 작업을 선택하여 정책을 업데이트
정책( ,policy) 은 Greedy하게 업데이트 된다.
Bellman Equation
MDP의 최적 가치 함수를 계산하는 기본 방정식
γ는 할인율(discount factor)로, 미래 보상에 대한 현재 가치를 결정한다.
사실 벨만 방정식을 푸는건 열립방정식을 푸는것과 다를바 없다!
'SKT FLY AI > Reinforcement Learning' 카테고리의 다른 글
Reinforcement Learning(5) Temporal-Difference RL (0) | 2024.07.18 |
---|---|
Reinforcement Learning(4) Monte-Carlo RL (0) | 2024.07.17 |
Reinforcement Learning (2) Backpropagation (0) | 2024.07.17 |
Reinforcement Learning (1) Intro (2) | 2024.07.17 |