[ML] LLM ๊ฐ๋ต
LLM์ Large Language Model(๋ํ ์ธ์ด ๋ชจ๋ธ)์ ์ค๋ง๋ก, ์์ฐ์ด ์ฒ๋ฆฌ์ ํน์ํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋งํ๋ค.
๋ง ML ๊ธฐ์ ์ ๊ทผ๊ฐ ์์ฒด๊ฐ ๋ฐ๋๊ฑด ์๋๊ณ , ๊ทธ๋ฅ ์ ๋ง๋ ์ธ์ด ๋ชจ๋ธ์ ์์ฐ์ด ๋ฐ์ดํฐ์
์ ๋ง๊ตฌ ๋๋ ค๋ฐ์์ ํ์ต์ํค๋ ๊ฒ์ด๋ค.
2022๋ ๋ OpenAI์ chatGPT์ ์ฑ๊ณต์ผ๋ก ํฌ๊ฒ ์ฑ์ฅํ ๋ถ์ผ๋ค.
๋ํ์ ์ผ๋ก ์ ์๋ ค์ก๊ณ ์ธ๋งํ LLM์ผ๋ก๋ OpenAI์ chatGPT, Microsoft์ Bing AI, Google์ Bard ์ ๋๊ฐ ์๋ค. ๋๋ถ๋ถ์ ์์ค์ฝ๋๋ฅผ ๊ณต๊ฐํ์ง ์๊ณ ํ์ํ์ผ๋ก ์ด์/๋ฐ์ ๋๋ค.
์คํ์์ค LLM์ผ๋ก๋ ๋ฉํ์ LLaMA2๊ฐ ๋ํ์ ์ด๋ค. ์ฌ์ค ์ด๊ฑฐ ๋ง๊ณ ๋ ๋ค ๋ณ๋ก์ธ ๊ฒ ๊ฐ๋๋ผ.
Claude 2 ๊ฐ์ ๊ฒ๋ ์๋๋ฐ ์ด๋ฐ๊ฑด ํ์ง์ ๋์งธ์น๊ณ ๊ธฐ๋ณธ ์คํ ์๊ตฌ์ฌํญ์ด ์์ฒญ ํฌ๋ค๋ ๊ฒ ๊ฐ๋ค.
๋๋ต์ ์ธ ๊ตฌ์กฐ
LLM๋ค์ Transformer ๊ธฐ๋ฐ์ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌํ๋๋ค.
transformer๊ฐ ๋ญ๋๋ฉด, ์ด๋ฐ๊ฑฐ๋ค.
์ธ์ฝ๋์ ๋์ฝ๋๋ผ๋ ๊ฒ์ ํตํด ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ด ์ด๋ฃจ์ด์ง๋๋ฐ,

๊ทธ๋ผ ์์์๋ ๊ฐ๊ฐ ์๋์ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
ํ
์คํธ๊ฐ ๋ค์ด์ค๋ฉด Self Attention์ ํตํด ํ์ฐจ๋ก ๊ฐ๊ณตํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผ Feed Forward๋ฅผ ํตํด ๋์ฝ๋๋ก ๋ณด๋ธ๋ค. Feed Forward๋ ์ ๊ฒฝ๋ง์์ ์ฐ์ด๋ ์ฉ์ด์ธ๋ฐ, ๊ทธ๋ฅ ์ค๊ฐ์ฒ๋ฆฌ์ ๋์์ ๋ค๋ฅธ๊ณณ์ ๋ณด๋ธ๋ค๊ณ ์๊ฐํ๋ฉด ๋๊ฒ ๋ค.
๊ทธ๋ฌ๋ฉด ๋์ฝ๋๋ ๋๊ฐ์ด Self Attention์ ๊ฑฐ์น ๋ค์์, Encoder-Decoder Attention์ด๋ผ๋ ํ๋ก์ธ์ค๋ก ๊ฐ๊ณตํ๊ณ , ๋ Feed Forward๋ฅผ ํตํด ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ๋ฐํํ๋ ๊ฒ์ด๋ค.
ํ๊ณ ๋ค๋ฉด ๋ ๋ง๋ค. Multi head attention์ด๋ ๋ญ๋...
.png?type=w800)
์ด๋ฐ๊ฑด ๋์ค์ ๋ด ์ดํด๋๊ฐ ๋ ๋์์ง๋ฉด ๋ฐ๋ก ์ง๋ฉด์ ํ ์ ํด๋ณด๊ฒ ๋ค.
์ ์ฐ์ฑ
LLM๋ค์ ์ต์ ์์ญ์ต~์์ฒ์ต๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฐ์ ์ ์๊ณ , ์ด๋ฅผ ํตํด ๋๋ผ์ด ์์ค์ ์ ์ฐ์ฑ์ ๊ตฌํํ๋ค.
OpenAI GPT-3 ๋ชจ๋ธ์๋ 1,750์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๊ฐ ์๋ค๊ณ ํ๋ค.
์ฐธ์กฐ
https://blogs.nvidia.co.kr/2023/01/30/what-are-large-language-models-used-for/
https://aws.amazon.com/ko/what-is/large-language-model/
https://www.elastic.co/kr/what-is/large-language-models
https://www.geeksforgeeks.org/large-language-model-llm/
https://tech.kakao.com/2023/06/05/languagemodel-mlm-clm/