50+ days of Machine Learning

Posts

Showing posts from February 2, 2024

[Day 32] Language transformers 및 한국 소프트웨어 공학 학회 day 3 (my presentation day)

2/02/2024 07:02:00 pm

안녕하세요! 오늘은 Day 32입니다! 오늘 했던 것이 다음과 같다 Deep Learning Specialization 마무리 한국 소프트웨어 공학 학회에서 발표 했다 첫 번째 ~ DL specialization 끝났다 ^^ Sequence models에서 마지막 부분이 Language transformers인데 그건 지금까지 못 배웠는데 NLP 위해 다양한 기능을 포함한다는 것을 알게 되었다 Transformers는 self-attention 매커니즘을 통해 문맥을 포착하는 데 뛰어나고 이는 문맥적 관련성에 따라 sequence 내의 다른 단어들의 중요성을 가중시킬 수 있으며 이를 통해 효과적으로 long range 의존성을 모델링하고 텍스트 내의 세밀한 관계를 찾을 수 있다 Self-attention mechanism은 각 단어를 query, key와 value 벡터와 관련시켜 단어에 대한 query에 가장 관련 있는 단어를 식별하는 데 key가 도움이된다. Value는 최종 표현에 기여한다. context에 따라 표현을 동적으로 조정함으로써 self-attention mechanism은 순차열 내 단어 의미와 관계의 더 풍부한 이해를 가능하게 하여 자연어 처리 작업에서 트랜스포머 네트워크의 능력을 향상시킬 수 있다 You can stack the self-attention "layers", and you get multi-head attention. Multi-head attention mechanism은 for loop over the self-attention mechanism으로 간단히 설명할 수 있다. 각 계산 단계를 head라고 부르며, 각 head는 입력 sequence에 대해 self-attention를 계산한다. 이러한 계산을 병렬로 수행하고 그 결과를 결합하여 multi-head stack을 생성한다. 이러한 mechanism을 통해 각 단어에 대해 여러 질문을 할 수 있고, 각 단어의 훨씬 더 풍부하고 효과적인 표...