Reinforcement Learning(5) Temporal-Difference RL
·
SKT FLY AI/Reinforcement Learning
Temporal-Difference (TD) Learning강화 학습의 기본 알고리즘 중 하나로, Monte Carlo와 Dynamic Programming 기법의 장점을 통합하여 사용한다.상태 가치 함수를 한 단계에서 업데이트한다. 긴 에피소드에 대해 동작한다.(몬테가를로는 동작 X) SARSA: on polict TD control On-Policy TD 학습 알고리즘 : 현재 정책에 따라 다음 행동 선택 첫 상태 S0을 임의로 샘플링 후 €-soft greedy policy에 따라 행동 A0을 선택한다.     Q-Learning : off polict TD control   첫 상태 S0을 임의로 샘플링 후 €-soft greedy policy에 따라 행동 A0을 선택한다.
Reinforcement Learning(4) Monte-Carlo RL
·
SKT FLY AI/Reinforcement Learning
Monte-Carlo RL강화학습(Reinforcement Learning, RL)에서 정책 평가와 정책 개선을 위한 기법 중 하나로 무작위 샘플링을 통해 결과를 추정하는 기법이다. Monte-Carlo EstimationMonte-Carlo Estimation은 무작위 샘플링을 사용하여 어떤 양을 추정하는 방법복잡한 수학적 모델의 해를 근사하는 데 사용되며, 주로 확률적 문제를 해결하는 데 적용 Monte Carlo Control 알고리즘 가치 함수 초기화: 모든 상태-행동 쌍의 q(s,a)q(s, a)q(s,a) 값을 무작위로 설정에피소드 생성: 무작위로 초기 상태와 행동을 선택하고, 정책 π\piπ를 사용하여 에피소드를 생성보상 계산: 에피소드의 보상을 역순으로 계산하여 GGG를 업데이트가치 함수 ..
Reinforcement Learning (3) Markov Decision Process
·
SKT FLY AI/Reinforcement Learning
Markov Process확률론적 모델로, 현재 상태만을 바탕으로 미래 상태를 예측하는 프로세스미래의 상태는 현재 상태에만 의존하고 과거 상태에는 의존하지 않는 특성을 가진다.   Markov Reward ProcessMarkob Process에서 각 상태의 보상가치를 평가할 수 있다고 추가로 가정한다. 상태와 행동 간의 전이와 관련된 보상을 모델링하며, 이를 통해 에이전트의 정책을 평가하고 최적의 정책을 찾는 데 사용된다. Markov Decision Process( MDP)Markov Reward Process에 의사결정 단계가 추가된다. 강화 학습 및 결정 이론의 핵심 개념으로, 에이전트가 환경과 상호작용하며 최적의 의사결정을 하는 문제를 모델링하는 수학적 프레임워크MDP는 상태와 행동의 상호작용을..
Reinforcement Learning (2) Backpropagation
·
SKT FLY AI/Reinforcement Learning
Gradient Descent머신러닝과 딥러닝의 최적화 알고리즘으로, 손실 함수(loss function)를 최소화하여 모델의 성능을 개선하는 데 사용된다.손실함수의 기울기를 계산하여 매개변수를 조정하는 최적화 방법이며 기울기의 최솟값을 찾는것을 목표로 한다.   Computation Graph컴퓨터 알고리즘화 된 합성함수에 대한 미분 테크닉이 체인 룰! 예시로 시그모이드 함수를 생각하면 아래와 같다기본 오퍼레이션이 node가 되고 그 input과 output이 edge가 된다.어떤 합성함수든 그래프를 통해 표현만 된다면 계산가능하다!   Backpropagation신경망의 학습 과정에서 오차를 전파하여 모델의 가중치를 최적화하는 알고리즘Forward propagation주어진 입력으로 계산 그래프(=네..
Reinforcement Learning (1) Intro
·
SKT FLY AI/Reinforcement Learning
Intro강화학습이란? 강화학습의 목표는 장기적으로 최대의 보상을 얻는 행동 전략을 학습하는 것!에이전트(Agent), 환경(Environment), 행동(Action), 상태(State), 보상(Reward) 의 다섯 가지 기본 요소로 구성된다. 에이전트(Agent) - 주체: 환경의 상태를 관찰하고, 행동을 결정하며, 보상을 받는다.환경(Environment)-대상: 에이전트의 행동에 따라 상태가 변화하고 보상이 주어진다.상태(State)-정보: 에이전트는 상태를 관찰하고 이를 기반으로 행동을 결정한다.행동(Action): 다양한 행동을 통해 에이전트는 환경에 영향을 미친다.보상(Reward)-피드백: 행동의 결과를 평가하는 기준이다.데이터는 state, action, reward  시퀀스의 집합이다..
✿(๑❛ڡ❛๑)✿
'SKT FLY AI/Reinforcement Learning' 카테고리의 글 목록