자연어 처리(NLP) 및 다양한
인공지능(AI) 분야에서 사용되는
딥러닝 모델이다. 2017년 구글의 바스와니(Vaswani) 등이 논문 "Attention is All You Need"에서 처음 제안하였다.
특징
1. 셀프 어텐션(Self-Attention) 메커니즘
- 입력 데이터 내 요소 간 관계를 학습하여 문맥을 효과적으로 파악한다.
2. 병렬 처리 가능
- 순차적 연산이 필요한 RNN과 달리, 병렬 연산이 가능하여 학습 속도가 빠르다.
3. 인코더-디코더 구조
- 번역 모델 등에서 사용되며, 인코더가 입력을 처리하고 디코더가 출력을 생성한다.
4. 멀티 헤드 어텐션(Multi-Head Attention)
- 여러 어텐션 헤드를 사용하여 다양한 관점에서 정보를 분석할 수 있다.
5. 위치 임베딩(Positional Encoding)
- 순서 정보를 포함하여 문맥 속에서 올바른 의미를 유지할 수 있도록 한다.
6. BERT, GPT 등의 발전
-
BERT는 양방향 학습을 활용하며,
GPT는 단방향 학습을 기반으로 한다.
7. 다양한 응용 분야
- 자연어 처리뿐만 아니라, 이미지 처리(Vision Transformer), 음성 인식 등 다양한 분야에서 활용된다.
트랜스포머는 기존 RNN 및 CNN 기반 모델보다 뛰어난 성능을 보이며, 현대 인공지능 모델의 핵심 기술로 자리 잡고 있다.
【인용】ChatGPT (2025.2)