[ML] LLM 개략

#ML

LLM은 Large Language Model(대형 언어 모델)의 준말로, 자연어 처리에 특수화된 딥러닝 모델을 말한다.
막 ML 기술의 근간 자체가 바뀐건 아니고, 그냥 잘 만든 언어 모델에 자연어 데이터셋을 마구 때려박아서 학습시키는 것이다.

2022년도 OpenAI의 chatGPT의 성공으로 크게 성장한 분야다.

대표적으로 잘 알려졌고 쓸만한 LLM으로는 OpenAI의 chatGPT, Microsoft의 Bing AI, Google의 Bard 정도가 있다. 대부분은 소스코드를 공개하지 않고 폐쇄형으로 운영/발전된다.

오픈소스 LLM으로는 메타의 LLaMA2가 대표적이다. 사실 이거 말고는 다 별로인 것 같더라.
Claude 2 같은 것도 있는데 이런건 품질은 둘째치고 기본 스펙 요구사항이 엄청 크다는 것 같다.

대략적인 구조

LLM들은 Transformer 기반의 신경망으로 구현된다.

transformer가 뭐냐면, 이런거다.
인코더와 디코더라는 것을 통해 입력과 출력이 이루어지는데,

그럼 안에서는 각각 아래와 같은 과정을 거친다.

텍스트가 들어오면 Self Attention을 통해 한차례 가공한다. 그 결과를 Feed Forward를 통해 디코더로 보낸다. Feed Forward는 신경망에서 쓰이는 용어인데, 그냥 중간처리와 동시에 다른곳에 보낸다고 생각하면 되겠다.

그러면 디코더는 똑같이 Self Attention을 거친 다음에, Encoder-Decoder Attention이라는 프로세스로 가공하고, 또 Feed Forward를 통해 최종 결과를 반환하는 것이다.

파고들면 더 많다. Multi head attention이니 뭐니...

.png?type=w800) 이런건 나중에 내 이해도가 더 높아지면 따로 지면을 할애해보겠다.

LLM들은 최소 수십억~수천억개의 매개변수를 받을 수 있고, 이를 통해 놀라운 수준의 유연성을 구현한다.
OpenAI GPT-3 모델에는 1,750억 개의 매개변수가 있다고 한다.