[ML] LLM ๊ฐœ๋žต

[์›๋ณธ ๋งํฌ]

LLM์€ Large Language Model(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์˜ ์ค€๋ง๋กœ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์— ํŠน์ˆ˜ํ™”๋œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๋งํ•œ๋‹ค.
๋ง‰ ML ๊ธฐ์ˆ ์˜ ๊ทผ๊ฐ„ ์ž์ฒด๊ฐ€ ๋ฐ”๋€๊ฑด ์•„๋‹ˆ๊ณ , ๊ทธ๋ƒฅ ์ž˜ ๋งŒ๋“  ์–ธ์–ด ๋ชจ๋ธ์— ์ž์—ฐ์–ด ๋ฐ์ดํ„ฐ์…‹์„ ๋งˆ๊ตฌ ๋•Œ๋ ค๋ฐ•์•„์„œ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค.

2022๋…„๋„ OpenAI์˜ chatGPT์˜ ์„ฑ๊ณต์œผ๋กœ ํฌ๊ฒŒ ์„ฑ์žฅํ•œ ๋ถ„์•ผ๋‹ค.

๋Œ€ํ‘œ์ ์œผ๋กœ ์ž˜ ์•Œ๋ ค์กŒ๊ณ  ์“ธ๋งŒํ•œ LLM์œผ๋กœ๋Š” OpenAI์˜ chatGPT, Microsoft์˜ Bing AI, Google์˜ Bard ์ •๋„๊ฐ€ ์žˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์€ ์†Œ์Šค์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ•˜์ง€ ์•Š๊ณ  ํ์‡„ํ˜•์œผ๋กœ ์šด์˜/๋ฐœ์ „๋œ๋‹ค.

์˜คํ”ˆ์†Œ์Šค LLM์œผ๋กœ๋Š” ๋ฉ”ํƒ€์˜ LLaMA2๊ฐ€ ๋Œ€ํ‘œ์ ์ด๋‹ค. ์‚ฌ์‹ค ์ด๊ฑฐ ๋ง๊ณ ๋Š” ๋‹ค ๋ณ„๋กœ์ธ ๊ฒƒ ๊ฐ™๋”๋ผ.
Claude 2 ๊ฐ™์€ ๊ฒƒ๋„ ์žˆ๋Š”๋ฐ ์ด๋Ÿฐ๊ฑด ํ’ˆ์งˆ์€ ๋‘˜์งธ์น˜๊ณ  ๊ธฐ๋ณธ ์ŠคํŽ™ ์š”๊ตฌ์‚ฌํ•ญ์ด ์—„์ฒญ ํฌ๋‹ค๋Š” ๊ฒƒ ๊ฐ™๋‹ค.




๋Œ€๋žต์ ์ธ ๊ตฌ์กฐ

LLM๋“ค์€ Transformer ๊ธฐ๋ฐ˜์˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ตฌํ˜„๋œ๋‹ค.

transformer๊ฐ€ ๋ญ๋ƒ๋ฉด, ์ด๋Ÿฐ๊ฑฐ๋‹ค.
์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๊ฒƒ์„ ํ†ตํ•ด ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด ์ด๋ฃจ์–ด์ง€๋Š”๋ฐ,

๊ทธ๋Ÿผ ์•ˆ์—์„œ๋Š” ๊ฐ๊ฐ ์•„๋ž˜์™€ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.

ํ…์ŠคํŠธ๊ฐ€ ๋“ค์–ด์˜ค๋ฉด Self Attention์„ ํ†ตํ•ด ํ•œ์ฐจ๋ก€ ๊ฐ€๊ณตํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผ Feed Forward๋ฅผ ํ†ตํ•ด ๋””์ฝ”๋”๋กœ ๋ณด๋‚ธ๋‹ค. Feed Forward๋Š” ์‹ ๊ฒฝ๋ง์—์„œ ์“ฐ์ด๋Š” ์šฉ์–ด์ธ๋ฐ, ๊ทธ๋ƒฅ ์ค‘๊ฐ„์ฒ˜๋ฆฌ์™€ ๋™์‹œ์— ๋‹ค๋ฅธ๊ณณ์— ๋ณด๋‚ธ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋˜๊ฒ ๋‹ค.

๊ทธ๋Ÿฌ๋ฉด ๋””์ฝ”๋”๋Š” ๋˜‘๊ฐ™์ด Self Attention์„ ๊ฑฐ์นœ ๋‹ค์Œ์—, Encoder-Decoder Attention์ด๋ผ๋Š” ํ”„๋กœ์„ธ์Šค๋กœ ๊ฐ€๊ณตํ•˜๊ณ , ๋˜ Feed Forward๋ฅผ ํ†ตํ•ด ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

ํŒŒ๊ณ ๋“ค๋ฉด ๋” ๋งŽ๋‹ค. Multi head attention์ด๋‹ˆ ๋ญ๋‹ˆ...

.png?type=w800) ์ด๋Ÿฐ๊ฑด ๋‚˜์ค‘์— ๋‚ด ์ดํ•ด๋„๊ฐ€ ๋” ๋†’์•„์ง€๋ฉด ๋”ฐ๋กœ ์ง€๋ฉด์„ ํ• ์• ํ•ด๋ณด๊ฒ ๋‹ค.




์œ ์—ฐ์„ฑ

LLM๋“ค์€ ์ตœ์†Œ ์ˆ˜์‹ญ์–ต~์ˆ˜์ฒœ์–ต๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋†€๋ผ์šด ์ˆ˜์ค€์˜ ์œ ์—ฐ์„ฑ์„ ๊ตฌํ˜„ํ•œ๋‹ค.
OpenAI GPT-3 ๋ชจ๋ธ์—๋Š” 1,750์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.






์ฐธ์กฐ
https://blogs.nvidia.co.kr/2023/01/30/what-are-large-language-models-used-for/
https://aws.amazon.com/ko/what-is/large-language-model/
https://www.elastic.co/kr/what-is/large-language-models
https://www.geeksforgeeks.org/large-language-model-llm/
https://tech.kakao.com/2023/06/05/languagemodel-mlm-clm/