[논문구현] Transformer (트랜스포머) 스크래치 구현부터 한영 번역 학습까지(Attention is All You Need)
Transformer 논문 'Attention is All You Need'를 스크래치로 구현하고 한영 번역 모델을 학습시키는 과정을 다룹니다.
[논문구현] Transformer (트랜스포머) 스크래치 구현부터 한영 번역 학습까지(Attention is All You Need)
Transformer from Scratch in Pytorch
Large Language Model (LLM)이 최근 유행하고 있는데, 그 기반이 되는 Transformer 관련 내용을 정리하고자 본 포스트를 작성하게 되었습니다.
모델 구현, 학습 데이터 선정 및 구성, 토크나이저 학습, 모델 학습까지 차근차근 다뤄볼 생각입니다.
데이터 셋 구성 및 학습과 관련된 코드는 아래 깃허브 레포를 참고해주세요.
목차
- Transformer (트랜스포머) 구조 설명
- 구현
- Embedding 및 Positional Encoding
- Padding Mask & Look-Ahead Mask 구현
- Multi-head Attention 구현
- Encoder 구현
- Decoder 구현
- Transformer 구현
- 한영 번역 데이터 셋 선정
- 토크나이저 학습
- 모델 학습
1. Transformer (트랜스포머) 구조 설명
작성중…
This post is licensed under CC BY 4.0 by the author.