Transformer ๋ชจ๋ธ

[์›๋ณธ ๋งํฌ]

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ํ˜„๋Œ€ ML์˜ ๊ทผ๊ฐ„์„ ์ด๋ฃจ๋Š” ํ•ต์‹ฌ ์ด๋ก  ์ค‘ ํ•˜๋‚˜๋‹ค. ๋ชจ๋“  LLM์ด ์ด๊ฑธ ๋ฐ”ํƒ•์œผ๋กœ ๋งŒ๋“ค์–ด์กŒ๋‹ค.

๊ตฌ๊ธ€ ๋”ฅ๋งˆ์ธ๋“œ์—์„œ 2017๋…„ ๋ƒˆ๋˜ ๋…ผ๋ฌธ "Attention Is All You Need"์—์„œ๋ถ€ํ„ฐ ์‹œ์ž‘๋˜์—ˆ๋‹ค.

์—ฌ๊ธฐ์„œ๋Š” Transformer๊ฐ€ ์–ด๋–ค ๊ตฌ์กฐ๋ฅผ ๊ฐ–๊ณ  ์žˆ๊ณ , ์–ด๋–ค ์ด์œ ๋กœ ํฅํ•˜๊ฒŒ ๋œ ๊ฒƒ์ธ์ง€๋ฅผ ๊ฐ„๋žตํžˆ ์ •๋ฆฌํ•ด๋ณธ๋‹ค.
์ˆ˜์‹์ด๋‚˜ ์„ธ๋ถ€์ ์ธ ๊ตฌํ˜„๋ณด๋‹ค๋Š” ๊ฐœ๋… ์ดํ•ด์— ์ง‘์ค‘ํ•˜๋ ค๊ณ  ํ•œ๋‹ค.




๊ธฐ์กด ๋ชจ๋ธ์˜ ๋ฌธ์ œ (RNN)

์ด์ „์— ์ง€๋ฐฐ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋˜ ๋ชจ๋ธ ์„ค๊ณ„๋Š” RNN(Recurrent Neural Network, ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง)์ด๋ผ๋Š” ๊ฒƒ์ด์—ˆ๋‹ค.

https://www.geeksforgeeks.org/machine-learning/introduction-to-recurrent-neural-network/
์ด๊ฑด ์‹œํ€€์Šค(ํ•˜๋‚˜์˜ ์ž์—ฐ์–ด ๋ฌธ์žฅ)๋ฅผ ์ฒ˜๋ฆฌํ• ๋•Œ, ๋‹จ์–ด๋ฅผ ๋ถ„๋ฆฌํ•œ ๋’ค์— ๊ฐ ๋‹จ์–ด๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋˜, ๊ฐ ๋‹จ์–ด์˜ ์ถœ๋ ฅ(๋ฒกํ„ฐ)๋ฅผ ๊ทธ ๋‹ค์Œ ์ž…๋ ฅ์œผ๋กœ๋„ ๊ณ„์Šน์‹œํ‚ค๋Š” ์ˆœํ™˜ ๋…ผ๋ฆฌ๋ฅผ ๊ฐ–๊ณ  ์žˆ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ์ตœ์ข…์ ์œผ๋กœ ๋‚˜์˜ค๋Š” ๋ฒกํ„ฐ๊ฐ’์ด ์ตœ์ข… ์‘๋‹ต์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

์ด๊ฑด ๊ธฐ์กด์˜ ์ผ๋ฐ˜ ์‹ ๊ฒฝ๋ง์˜ ๋งŽ์€ ๋ฌธ์ œ๋“ค(๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ, ์ˆœ์„œ ์ •๋ณด ์œ ์ง€ ๋“ฑ)์„ ๊ฐœ์„ ํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์น˜๋ช…์ ์ธ ๋‹จ์ ๋“ค์„ ์—ฌ๋Ÿฌ๊ฐœ ๊ฐ–๊ณ  ์žˆ์—ˆ๋‹ค.

์ผ๋‹จ, ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋А๋ ธ๋‹ค. ํ•˜๋‚˜์˜ ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ• ๋•Œ ๋‹จ์–ด๋ฅผ ํ•˜๋‚˜์”ฉ ์ˆœ์„œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ ์ˆ˜์ค€์ด ๋งค์šฐ ์ €์กฐํ–ˆ๋‹ค. ํ•™์Šต๊ณผ ์ผ๋ฐ˜ ์ถ”๋ก  ๋ชจ๋‘์— ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์œ ๋ฐœํ•˜๋Š” ์š”์ธ์ด์—ˆ๋‹ค.

๊ฒŒ๋‹ค๊ฐ€ ์ •๋ณด ์†Œ์‹ค ๋ฌธ์ œ๋„ ์‹ฌ๊ฐํ–ˆ๋‹ค. ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ๊ฐ’์ด ๊ณ„์† ๊ทธ ๋‹ค์Œ ๋‹จ์–ด๋กœ ๊ฐ„์ ‘ ๊ณ„์Šน๋˜๊ธด ํ•˜๋‚˜, ์• ์ดˆ์— ๊ทธ ๋ฒกํ„ฐ๋ž€ ๊ฒƒ๋“ค์ด ๊ทผ์‚ฌ์น˜์— ๋Œ€ํ•œ ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— ์˜จ์ „ํ•˜๊ฒŒ ๋„˜์–ด๊ฐ€์ง„ ์•Š๋Š”๋‹ค. ๊ทธ๋ž˜์„œ ๋ฌธ์žฅ์ด ๊ธธ์–ด์งˆ์ˆ˜๋ก ๋งจ ๋์—์„œ ์œ ์‹ค๋˜๋Š” Vanishing Gradient ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค.




ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ธฐ๋ณธ ์›๋ฆฌ

๊ทธ๋ž˜์„œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋Š” ์ด๋Ÿฐ RNN์˜ ๋ฏธ๋ฌ˜ํ•œ ๋‹จ์ ๋“ค์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์™”๋‹ค.
ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ–ˆ๋˜ ์ฃผ์š” ๋ฌธ์ œ๋Š” "ํ•™์Šต/์ถ”๋ก  ์†๋„๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ"์ด์—ˆ๊ณ , ๊ทธ๊ฑธ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ๋‹จ์–ด ์ˆ˜์ค€์˜ ํ•™์Šต/์ถ”๋ก ์„ ๋ณ‘๋ ฌ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด์—ˆ๋‹ค.

https://lcyking.tistory.com/entry/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Attention-is-All-you-need%EC%9D%98-%EC%9D%B4%ED%95%B4
์„ธ๋ถ€์ ์œผ๋กœ ๋œฏ์–ด๋ณด๋ฉด ์ด๊ฒƒ์ €๊ฒƒ ๋ญ๊ฐ€ ๋งŽ๊ธด ํ•˜๋‹ค.
ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๋‹ค์Œ ๊ณผ์ •์„ ๊ฑฐ์ณ์„œ ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค.

1. ํ† ํฐํ™”
์ž์—ฐ์–ด ๋ฌธ์žฅ์ด ๋“ค์–ด์˜ค๋ฉด, ์ผ๋‹จ ์ธ์ฝ”๋” ๋ ˆ์ด์–ด์—์„œ๋Š” ๋ฌธ์žฅ์„ ๋‹จ์–ด ๋‹จ์œ„๋กœ ์ž๋ฅธ๋‹ค.
"I Rust you" => ["I", "Rust", "you"]
์ด๊ฑด ๋Œ€๋ถ€๋ถ„์˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์ด ๋™์ผํ•œ ๋ถ€๋ถ„์ด๋‹ค.

2. ์œ„์น˜
๋‹จ์–ด๊ฐ€ ๋“ค์–ด์˜ค๋ฉด, ์ผ๋‹จ ๋‹จ์–ด๋งˆ๋‹ค ์œ„์น˜์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.
์ด๊ฑธ Positional Encoding์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์–ด๊ฐ€ ๋ฌธ์žฅ ๋‚ด์—์„œ ์œ„์น˜ํ•˜๋Š” ์ˆœ์„œ๋ฅผ ๊ธฐ๋กํ•˜๊ณ  ๊ทธ๊ฒƒ์ด ์˜๋ฏธ์žˆ๊ฒŒ ์‚ฌ์šฉ๋˜๊ฒŒ๋” ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

3. ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ
์—ฌ๊ธฐ๋ถ€ํ„ฐ๋Š” ๋‹จ์–ด๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค.
์ด๊ฒŒ RNN๊ณผ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์ด๋‹ค. RNN์€ I => Rust => You์ฒ˜๋Ÿผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ–ˆ์ง€๋งŒ, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค์˜ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ทธ๊ฑธ ์ตœ์ข…์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

4. Attention
๊ฐœ๋ณ„ ๋‹จ์–ด์— ๋Œ€ํ•œ ์ถ”๋ก ์€ Self-Attention๊ณผ Multi-head Attention์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. ์•ฝ๊ฐ„ ๋‚ด์šฉ์ด ๊ธธ์–ด์ง€๋ฏ€๋กœ, ์ƒ์„ธํ•œ ๋งค์ปค๋‹ˆ์ฆ˜์€ ํ›„์ˆ ํ•œ๋‹ค.

5. Feed-Forward
๊ทธ๋ฆฌ๊ณ  Multi-head Attention์„ ํ†ตํ•ด ํ•œ๋ฒˆ ์ถ”๋ก ์„ ๊ฑฐ์ณค๋‹ค๋ฉด, ๊ทธ๊ฑธ Feed-Forward Neural Network๋ฅผ ํ†ตํ•ด ๋‹ค์‹œ ํ•œ๋ฒˆ ์ •์ œํ•˜๋Š” ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ •์ œํ•œ๋‹ค.

6. ๋ฐ˜๋ณต-๋ ˆ์ด์–ด
Multi-Head Attention + Feed-Forward๋Š” ํ•œ๋ฒˆ๋งŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ •๋ณด๊ฐ€ ์–ด๋А ์ •๋„ ์™„์ „ํ•ด์งˆ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต๋œ๋‹ค. ์ด ํ•œ ํ๋ฆ„์„ ๋ ˆ์ด์–ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š”๋ฐ, ๋ชจ๋ธ ๋ฒ ์ด์Šค๋งˆ๋‹ค ๋ ˆ์ด์–ด์˜ ๊ณ„์ธต์€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
GPT-3์˜ ๊ฒฝ์šฐ์—๋Š” ๋ ˆ์ด์–ด๊ฐ€ 96๊ฐœ์˜€๋‹ค.

**7. ์ตœ์ข… ๊ฒฐํ•ฉ **
๋ฃจํ”„๋ฅผ ์ถฉ๋ถ„ํžˆ ๋Œ์•˜๋‹ค๋ฉด, ์ข…๊ตญ์—๋Š” ๊ฐ ๋‹จ์–ด๋ณ„ ๋ฒกํ„ฐ๋ฅผ ์ •๋ฆฌํ•ด์„œ ์ตœ์ข… ๊ฒฐ๊ณผ๋กœ ๊ฐ€๊ณตํ•ด์•ผ ํ•œ๋‹ค.
์—ฌ๊ธฐ์—” ๋”ฑ ์ •ํ•ด์ง„ ๋ฐฉ์‹์€ ์—†๋‹ค. ๋‹จ์–ด๋ณ„ ๋ฒกํ„ฐ๋ฅผ ์ง„์งœ ์ „๋ถ€ ๋‹ค ์“ธ์ˆ˜๋„ ์žˆ๊ณ , ๋ฒกํ„ฐ๋“ค์„ ๊ฒฐํ•ฉํ•ด์„œ ๋‹จ์ผ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ๋‹ค.
๋‹จ์ผ ๋ฒกํ„ฐ๋กœ ๊ฒฐํ•ฉํ•ด์•ผ ํ•œ๋‹ค๋ฉด softmax ๊ฐ™์€ ํ™•๋ฅ  ๋ถ„ํฌ ํ•จ์ˆ˜๋ฅผ ์“ฐ๊ณค ํ•œ๋‹ค.




Attention Is All You Need

Attention์€ ๊ฒฐ๊ตญ ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด์™€ ์–ด๋–ค ๊ด€๊ณ„๋ฅผ ๊ฐ–๋Š”์ง€์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ๋‹ค.

๊ทธ๋ž˜์„œ ์‹ค์ œ๋กœ Attention ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ๋Š”, ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด์™€ ์–ผ๋งˆ๋‚˜ ์ง‘์ค‘(Attention)ํ•˜๋Š”์ง€๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ๊ณ„์‚ฐํ•˜๊ณ  ๊ด€๋ฆฌํ•œ๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด "The cat sat on the mat because it was tired"๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ๋‹ค๊ณ  ์น˜๋ฉด, it๊ณผ ์œ ์‚ฌ๋„๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ๋‹จ์–ด๋Š” "cat"์ด ๋  ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค๋„ ๋‚ฎ์ง€๋งŒ ์œ ์‚ฌ๋„ ์ ์ˆ˜๋ฅผ ๊ฐ€์ง€๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋กœ์„œ ๋ฌธ์žฅ์„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

Self-Attention
ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์—์„œ ์ด์•ผ๊ธฐํ•˜๋Š” Self-Attention์€ ํ•œ ๋ฌธ์žฅ ๋‚ด์—์„œ, ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด๋ฅผ ๋ณด๊ณ  ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค. ๊ทธ๋ž˜์„œ ์ด๋ฅผ ํ†ตํ•ด ์ „์ฒด์ ์ธ ๋ฌธ๋งฅ์„ ๊ณ ๋ คํ•ด์„œ ๊ฐ’์„ ์ถ”๋ก ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ๊ฐ ๋‹จ์–ด๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹จ์–ด๊ฐ€ 6๊ฐœ๋ผ๋ฉด 6๊ฐœ ๋‹จ์–ด์— ๋Œ€ํ•œ ์ถ”๋ก ์„ ๋ณ‘๋ ฌํ™”ํ•œ๋‹ค.

**Multihead Attention **
์ด๊ฑด Self-Attention์„ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ด€์ ์—์„œ ๋™์‹œ์— ๋ณ‘๋ ฌ๋กœ ๋Œ๋ฆฌ๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.
๊ฐ๊ฐ์˜ head๊ฐ€ ํ•œ๊ฐ€์ง€ ๊ด€์ ์— ๋Œ€ํ•œ ์ถ”๋ก ์ด๊ณ , ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ด€์ ์„ ๋™์‹œ์— ๋Œ๋ฆฐ๋‹ค๊ณ  multi-head๋‹ค.
์ด๋ฅผํ…Œ๋ฉด, ๋ฌธ๋ฒ•์  ๊ด€๊ณ„์— ์ง‘์ค‘ํ•˜๋Š” ์ถ”๋ก  head๊ฐ€ ์žˆ๊ณ , ์˜๋ฏธ์  ๊ด€๊ณ„์— ์ง‘์ค‘ํ•˜๋Š” ์ถ”๋ก  head๊ฐ€ ์žˆ๊ฑฐ๋‚˜ ํ•˜๋Š” ์‹์ด๋‹ค.
์ด๋Ÿฐ ๋‹ค์–‘ํ•œ ์ถ”๋ก ๋“ค์„ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ ๋’ค์—, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋งˆ์ง€๋ง‰์— ๊ฒฐํ•ฉํ•œ๋‹ค.
์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต/์ถ”๋ก  ์†๋„๋ฅผ ์ตœ์ ํ™”ํ•œ๋‹ค.




ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์žฅ๋‹จ์ 


์žฅ์ 

Self-Attention ๋งค์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ธด ๋ฌธ์žฅ์„ ํฐ ์†์‹ค ์—†์ด ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.
์ด๊ฒŒ ๋Œ€-LLM ์‹œ๋Œ€๋ฅผ ์ด๋Œ๊ณ  ์˜จ ๊ฐ€์žฅ ํฐ ํŠน์„ฑ ์ค‘ ํ•˜๋‚˜๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์ „์˜ ๋ชจ๋ธ ๋ฒ ์ด์Šค๋“ค์€ ๋ฌธ์žฅ์ด ๊ธธ์–ด์งˆ์ˆ˜๋ก ์ •๋ณด๊ฐ€ ์†์‹ค๋˜๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ๊นจ์ ธ์„œ ์กฐ์•…ํ•œ ํ’ˆ์งˆ์ด ๋‚˜์˜ค๊ธฐ ์‰ฌ์› ๋‹ค.

Multi-head attention๋ฅผ ํ†ตํ•ด์„œ ๋ฌธ์žฅ์„ ๋‹ค๊ฐ๋„์—์„œ ๋ถ„์„ํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.
์ด๊ฒƒ๋„ LLM์˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ˆ˜์ค€์„ ๋†’์ธ ์ฃผ์š” ์›์ธ ์ค‘ ํ•˜๋‚˜๋‹ค.

๋ณ‘๋ ฌ์ฒ˜๋ฆฌ ์ˆ˜์ค€์ด ๋งค์šฐ ๋†’์€ ๊ฒƒ๋„ ์ค‘์š”ํ•œ ์žฅ์  ์ค‘ ํ•˜๋‚˜๋‹ค.
๋งŽ์€ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ˆœ์ฐจ๊ฐ€ ์•„๋‹Œ ๋ณ‘๋ ฌ๋กœ ๋Œ๋ฆด ์ˆ˜ ์žˆ์–ด์„œ GPU ํ™œ์šฉ๋„๊ฐ€ ๋งค์šฐ ๋†’์•„์กŒ๊ณ , ์ด๊ฒŒ ์—”๋น„๋””์•„์˜ ๋งค์ถœ์„ ๋Š˜๋ ค์ค€ ๊ฐ€์žฅ ํฐ ์š”์ธ์ด๋‹ค.



๋‹จ์ 

๋ณ‘๋ ฌํ™”๊ฐ€ ์ž˜ ๋œ๋‹ค๋Š” ๊ฒƒ์ด, ์—ฐ์‚ฐ ํšจ์œจ์ ์ด๋ผ๋Š” ์˜๋ฏธ๋Š” ์•„๋‹ˆ๋‹ค.
๋งŽ์€ ์ž์›์ด ์žˆ๋‹ค๋ฉด ๊ทธ ๋ฆฌ์†Œ์Šค๋ฅผ ํ•™๋Œ€ํ•ด์„œ ๋” ๋น ๋ฅธ ์‹œ๊ฐ„ ๋‚ด์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์„ ๋ฟ์ด๋‹ค.
๊ทธ๋ž˜์„œ ์—ฐ์‚ฐ ์ž์›์„ ๋งค์šฐ ํฌ๊ฒŒ ์†Œ๋ชจํ•˜๋ฉฐ, ์ด๊ฒŒ GPU๊ฐ€ ํ•„์ˆ˜ํ’ˆ์œผ๋กœ ์ž๋ฆฌ์žก์€ ์ด์œ ๋‹ค.
๋งŽ์€ GPU ์ฝ”์–ด, ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ, ๋งŽ์€ ์ „๋ ฅ๋Ÿ‰ ์†Œ๋น„๊ฐ€ ๋”ฐ๋ผ์˜ค๋Š” ๊ฒƒ๋„ ์ด๊ฒƒ ๋•Œ๋ฌธ์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  ๊ธฐ์กด ๋ชจ๋ธ ๋ฒ ์ด์Šค์— ๋น„ํ•ด์„œ ๋งŽ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•œ ๊ฒƒ๋„ ๋‹จ์ ์ด๋‹ค.
multihead attension, FNN, ๋ ˆ์ด์–ด ์ค‘์ฒฉ ๋“ฑ์œผ๋กœ ์ธํ•ด์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งค์šฐ ๋งŽ์€ ํŽธ์ธ๋ฐ, ๊ทธ ๋•Œ๋ฌธ์— ๊ณ ํ’ˆ์งˆ์˜ ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ๋งŽ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ€์–ด๋„ฃ์„ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.




๊ทผํ™ฉ

ํ˜„์žฌ LLM ๋ชจ๋ธ๋“ค์€ ์ „๋ถ€ ์ด ๋ชจ๋ธ์„ ๊ทผ๊ฐ„์œผ๋กœ ๋งŒ๋“ค์–ด์ ธ์žˆ๋‹ค๊ณ  ํ•ด๋„ ๊ณผ์–ธ์ด ์•„๋‹ˆ๋‹ค.

OpenAI์˜ GPT, Google Gemini, Anthropic์˜ Claude, DeepSeek ๋“ฑ ๋Œ€๋ถ€๋ถ„์˜ ์ฃผ์š” LLM ๊ตฌํ˜„์ฒด๋“ค์ด ์ „๋ถ€ Transformer๋ฅผ ๋ฒ ์ด์Šค๋กœ ๋งŒ๋“ค์–ด์กŒ๊ณ , ์—„์ฒญ๋‚œ ํ˜์‹ ์ด ์ผ์–ด๋‚˜์ง€ ์•Š๋Š” ์ด์ƒ ์ด๋Ÿฐ ํ๋ฆ„์€ ํ•œ๋™์•ˆ ๋” ์ด์–ด์งˆ ๊ฒƒ ๊ฐ™๋‹ค.



์ฐธ์กฐ
https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/
https://www.geeksforgeeks.org/machine-learning/introduction-to-recurrent-neural-network/
https://wikidocs.net/22886
https://wikidocs.net/31379