[Day 20] Natural Language Processing - TensorFlow Developer Certificate Part 3

 안녕하세요!
오늘은 Day 20입니다!


오늘 NLP에 대해 처음으로 공부했다



자... 

NLP 하려면 일단, 데이터를 토큰화해야 하고 pad_sequence도 사용해야 한다


오늘 sequence 모델에 대해 알게 되었다. NLP 경우엔 과접학이 흔히 볼 수 있다. 검증 데이터셋에 훈련 데이터셋에 없는 데이터가 있는 것이 다영하기 때문이다. 투위터 게시물의 감성 분석 모델 만들어 봤다
이 모델의 과접학이 심하다
과접학이 그렇게 심하지 않다

감성 분석 모델이 다양하게 있어서 3가지만 만들어 봐서 비교했다


그 다음에, next word predictor 모델 만들어 봤다
Base model:
모델 2


모델 3

그 중 Base 모델은 제일 높은 accuracy와 낮은 loss을 얻었다

아직 NLP에 아직 초보자라 kaggle에서 새로운 데이터로 연습해야 한다. 


오늘은 여기까지입니다!

내일 뵐게요!

Popular posts from this blog

[Day 198] Transactions Data Streaming Pipeline Porject [v1 completed]

[미리 공부] 기초 통계 복습 (Day 1는 1월2일)

[Day 61] Stanford CS224N (NLP with DL): Machine translation, seq2seq + a side CDCGAN mini project