[Day 20] Natural Language Processing - TensorFlow Developer Certificate Part 3

안녕하세요!
오늘은 Day 20입니다!

자...

NLP 하려면 일단, 데이터를 토큰화해야 하고 pad_sequence도 사용해야 한다

오늘 sequence 모델에 대해 알게 되었다. NLP 경우엔 과접학이 흔히 볼 수 있다. 검증 데이터셋에 훈련 데이터셋에 없는 데이터가 있는 것이 다영하기 때문이다. 투위터 게시물의 감성 분석 모델 만들어 봤다

이 모델의 과접학이 심하다

과접학이 그렇게 심하지 않다

감성 분석 모델이 다양하게 있어서 3가지만 만들어 봐서 비교했다

그 다음에, next word predictor 모델 만들어 봤다

Base model:

모델 2

모델 3

그 중 Base 모델은 제일 높은 accuracy와 낮은 loss을 얻었다

아직 NLP에 아직 초보자라 kaggle에서 새로운 데이터로 연습해야 한다.

오늘은 여기까지입니다!

내일 뵐게요!