[LLM] Reasoning Model

#LLM

[원본 링크]

Reasoning Model은 LLM의 방향성을 크게 뒤튼 개선 방안 중 하나다.
복잡한 문제를 해결하기 위한 방법론으로서 제시되었고, ChatGPT가 GPT o1를 2024년에 출시하면서 처음 시도되었다.

이 때를 기점으로 LLM의 실성능 고점이 크게 향상되었다.
그리고 이것도 모델 제공사나 상황마다 용어가 중구난방인데, 보통은 Thinking이라고 부르는 경우가 더 많다.

기존의 LLM

Reasoning Model이 제시되기 전의 LLM들은 단순하고 직관적인 형태를 거쳤다.
입력이 들어오면, 그걸 Transformer에 거쳐서 바로 답변을 생성한 것이다.

물론 LLM 특유의 구조 때문에 내부적으로 Token과 Attention 단위의 병렬 추론과 예측을 이래저래 돌리긴 하지만, 거기서 더 나아가지는 않았던 것이다.

이 방식은 속도가 빠르고 비용효율적이긴 하지만, 복잡한 문제를 해결하는데는 한계가 있었다. 이를테면 매우 어려운 수학 문제나 복잡한 논리가 포함된 문제, 대형 문서 처리 같은 문제들 말이다.

Reasoning Model

Reasoning Model은 위 한계를 간접적으로 해소하는 방법이다.
막 엄청나게 혁신적인 방법을 도입하거나 한 것은 아니고, 입력이 들어왔을 때 바로 답을 생성하는 대신 문제를 해결하기 위한 생각(Thinking) 과정을 먼저 수행하도록 학습된 모델이라고 볼 수 있다.

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms

복잡한 문제가 주어지면 모델은 내부적으로 문제를 여러 단계로 나누어 해결 전략을 세우고, 각 단계의 결과를 검토하거나 필요하면 이전 단계를 수정하면서 추론을 이어간다. 이러한 과정을 거쳐 충분한 답을 얻었다고 판단되면, 최종적으로 그 결과를 종합하여 사용자에게 답변을 생성한다.

다만 이게 대부분의 Reasoning Model 구현체들은 내부 구현을 공개하지 않기 때문에 상세한 것을 알 수는 없다.

그리고 최근 오픈모델들은 하나의 Base 모델을 학습한 뒤, 용도에 맞게 여러 파생 모델을 만드는 경우가 많다.
일반적인 Chat 모델과 Coding 모델, Reasoning 모델 등이 모두 이러한 방식으로 만들어진다.

Reasoning Model의 한계

당연하지만 이게 모든 상황에 적합한 것은 아니다.
수학이나 개발, 디버깅 등에는 고차원적인 사고 능력이 필요해서 느리고 비싸더라도 Reasoning을 거치는 것이 좋지만, 그 외에는 애매한 경우도 있다.

이를테면 일반적인 대화나 요약, 번역 같은 경우에는 Reasoning까지 필요하지는 않다.
이런 경우에는 Reasoing 옵션을 강제로 끈 채로 쓰거나 하는 것이 훨씬 좋은 결과를 낼 수도 있다.

그리고 이게 추론 자체의 성능을 높인게 아니라, 분할 정복과 리뷰 & 개선을 통해서 환각이나 실수를 줄이는 것이라는 데서 오는 한계도 있다. 그래서 무작정 Reasoning을 오래 한다고 해서 결과가 좋게 나온다는 보장은 없다. 오히려 더 뒤틀릴 수도 있다.

이런 이유들에서 현재 주요 모델들은 Hybrid Thinking이라는 방식을 쓴다. 그렇게 특별한 것은 아니고, 단순한 문제가 나오면 Reasoning을 하지 않고, 복잡한 문제가 나오면 Reasoning을 하도록 내부 분기처리를 한다는 것이다.

Reasoning Model의 현황

현재 주요 AI 대기업들은 전부 Reasoning Model을 지원한다.
다만 이게 비싸고 느리기 때문에 모든 모델이 Reasoning을 지원하지는 않을 수 있다.

이를테면 OpenAI의 경우에는 GPT o 시리즈 (o1, o3, o4 등)에 한해서 Reasoning을 제공한다.
Anthropic의 경우에는 Claude Opus & Sonnet 계열 모델이 Reasoning을 지원한다.
Google의 경우에는 2.5 버전부터 거의 모든 GEMINI 주요 모델이 Reasoning을 지원한다.

공통적으로, Reasoning을 얼마나 할지 설정할 수 있는 옵션을 제공한다. Reasoning을 길게 할수록 고품질의 결과를 뽑아낼 수도 있지만, 그만큼 느려지고 비용도 크게 부과되는 구조이기 때문이다.
이것도 옵션명이 제각각이다. thinking_level(GEMINI 3~), thinking_budget(GEMINI 2.5~), reasoning_effort(OpenAI), budget_tokens(Claude). OpenAI의 경우에는 추상화된 레벨로만 제한을 걸 수 있고, 나머지 주요 모델은 토큰 단위로 예산을 제약할 수 있다.

오픈 모델들도 일부 고성능 모델은 Reasoning을 지원한다.
대표적인 예는 중국산 명품 모델로 알려진 Qwen이다. Qwen3 Thinking 모델이 따로 있다.

Reasoning Model의 미래?

모르겠다.
성능의 벽을 Reasoning으로 상당수 우회한 상황이긴 한데, Reasoning을 통해 그럴듯한 향상을 더 내는게 언제까지 지속될지 모르겠다.

성장폭이 좀 완만해졌다가 근래에 좀 더 치고 올라오는 것 같기는 하다만... 더 봐야 알 것 같다.
일단 아직은 성장 여력이 남아 있는 것처럼 보인다.

참조
https://en.wikipedia.org/wiki/Reasoning_model
https://www.ibm.com/kr-ko/think/topics/reasoning-model
https://turingpost.co.kr/p/topic-44-reasoning-models
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms