[Day 16] 강화 학습 및 ML Specialization 자격증

 안녕하세요!
오늘은 Day 16입니다!


오늘에 공부했던 것:


오늘 위에 course의 마지막 부분을 공부했다. 강화학습에 대해 알게 되었다. 그리고 Specialization 자격증 땄다


오늘은 강화학습에 대해 처음으로 공부해서 Andrew Ng 교수님 덕분에 굉장히 재미있었다

State - action 이란 용어 알게 되었다
Return도 강화학습에 중요한 말이다 (금융와 비슷한 역할이다)

Policy는 상태(state) 알며 어느 행동을 해야 하는 말이다
discount factor에 따라 모델 impatience를 영향을 준다
Bellman equation - It is the return if you start from state s, take action a (once), then behave optimally after that.
훈련하며 행동을 어떻게 올바로 선택해야 할까? 처음엔 random 행동 선택의 확률을 높게 택하고 나서 훈련하다 조금씩 조금씩 낮추면 좋은 것 같다고 했다
마지막으로, mini-batch는 Andrew Ng 교수님이 even though there is more noise and not so reliably always head towards the minimum, it is much more computantionally inexpensive than batch learning라고 했다


내일부터 ~~~ TensorFlow Developer Certificate 준비 시작해보도록 하겠습니다




오늘 여기까지입니다!

내일 뵐게요!

Popular posts from this blog

[Day 198] Transactions Data Streaming Pipeline Porject [v1 completed]

[미리 공부] 기초 통계 복습 (Day 1는 1월2일)

[Day 61] Stanford CS224N (NLP with DL): Machine translation, seq2seq + a side CDCGAN mini project