
Showing posts from January 17, 2024

[Day 16] 강화 학습 및 ML Specialization 자격증

 안녕하세요! 오늘은 Day 16입니다! 오늘에 공부했던 것: DeepLearning.AI의 머신러닝 오늘 위에 course의 마지막 부분을 공부했다. 강화학습에 대해 알게 되었다. 그리고 Specialization 자격증 땄다 오늘은 강화학습에 대해 처음으로 공부해서 Andrew Ng 교수님 덕분에 굉장히 재미있었다 State - action 이란 용어 알게 되었다 Return도 강화학습에 중요한 말이다 (금융와 비슷한 역할이다) Policy는 상태(state) 알며 어느 행동을 해야 하는 말이다 discount factor에 따라 모델 impatience를 영향을 준다 Bellman equation - It is the return if you start from state s, take action a (once), then behave optimally after that. 훈련하며 행동을 어떻게 올바로 선택해야 할까? 처음엔 random 행동 선택의 확률을 높게 택하고 나서 훈련하다 조금씩 조금씩 낮추면 좋은 것 같다고 했다 마지막으로, mini-batch는 Andrew Ng 교수님이 even though there is more noise and not so reliably always head towards the minimum, it is much more computantionally inexpensive than batch learning라고 했다 내일부터 ~~~ TensorFlow Developer Certificate 준비 시작해보도록 하겠습니다 오늘 여기까지입니다! 내일 뵐게요!