강화학습 3

[ch.3] Bellman Equation

으악 엄청 밀렸다 .. 하지만 나의 게으름 때문은 아니지. (사실 맞는 듯;) 매주 스터디 세미나가 있다보니 정신없이 흘러가서 복습할 시간이 없어서 못썼다 ㅠㅠ 엄청난 TMI이지만 난 이해력이 좀 느린 편이라 ... 남들보다 배로 노력하는 '노력파'다 ... ㅎ 일주일에 세 챕터.. 나한텐 모자르다 ㅠㅠ 그래서 복습하면서 글 쓸 시간이 없어서 못썼는데 이번주가 강화학습 마지막 스터디라서 슬슬 다시 써보려고 한당. .. .. . .. 근데 나 그래도 어느정도 잘 적응한 듯? 헤헷 세번째는 Bellman Equation 이다. 앞에서 나온 state value와 action value값을 구하기 위한 식이 Bellman Equation인데 이는 또 Bellman Expectation Equation과 Bel..

STUDY 2022.02.15

[ch.2] Markov Decision Process

두번째 내용은 Markov Decision Process 이다 (=MDP) Markov Decision Process를 해결하는 것을 reinforcement learning이라고 할 수 있다. MDP를 설명하기에 앞서 두 가지 개념을 먼저 설명하고 MDP로 넘어가도록 하겠다. 1. Markov Process ≡ (S,P) 앞으로 MP로 줄여서 말하도록 하겠다. MP는 앞으로 일어날 event들에 대한 순서를 확률로 모델링 하는 것이다. 필요로 하는 원소는 State와 transition probability 이다. (S,P) 여기서 말하는 state는 말 그대로 지금 상황을 나타내는 것이며 transition probability는 'state s에서 s'으로 가게 될 확률' 이라고 설명할 수 있다. ..

STUDY 2022.02.08

[ch.1] Reinforcement Learning

대학원 첫 학기 시작. 사실 3월 개강이지만 연구실에 적응하고 공부할 겸, 1월부터 출근을 시작했다. 이제 거의 한 달이 다 되어가지만 아직 열심히 적응 중이다! 연구실에서 신입생에게 Reinforcement Learning 내용 관련한 세미나를 준비해보라고 하였다. 세미나를 진행한 후 공부한 내용을 차근히 정리해보려고 한다. 나는 매우 게으른 P라서 걱정되긴하지만 ,,, 열심히 올려보도록 하겠어... 언젠가 대학원 입시 준비에 관련한 내용도 올려보도록 노력해보겠다. Computer Science 같은 경우에는 대학원 진학에 관련된 정보가 매우 없었기 때문에 나도 매애애애우 고생했다 ㅠㅠ 누군가에게는 도움이 되길 바라며 ... 언젠가는... 올리도록...... 그리고 스킨도 꾸며야지 ... (일단 지금은..

STUDY 2022.02.08