[개인공부]대규모 언어 모델(LLM) 개요

카테고리 없음

[개인공부]대규모 언어 모델(LLM) 개요

seongw00 2026. 6. 14. 14:56

오늘날 직장인의 업무 생산성을 바꾸고, 대학생들의 리서치 방식을 완전히 뒤흔든 기술이 있습니다. 바로 ChatGPT, Claude, Gemini 등으로 대표되는 대규모 언어 모델(LLM, Large Language Model)입니다. 많은 사람들이 매일 이 도구들을 사용해 보고서를 쓰고, 코딩을 하고, 메일을 작성하지만 정작 기술이 '어떻게' 문장을 만들어내는지 아는 사람은 드뭅니다.

인공지능이 인간처럼 생각하고 답하는 것일까요? 아니면 거대한 데이터베이스에서 정답을 검색해 오는 것일까요?

이번 글에서는 대학생과 직장인이 반드시 알아야 할 LLM의 본질과 핵심 작동 원리, 그리고 이 거대한 기술을 지탱하는 4가지 핵심 기술을 깊이 있게 살펴보겠습니다.

1. LLM의 본질: "다음 단어 맞추기" 게임

결론부터 말하자면, LLM은 인간처럼 사고하는 자아를 가진 존재가 아닙니다. 수학적인 관점에서 LLM의 본질은 다음과 같이 정의할 수 있습니다.

"어떤 텍스트가 주어졌을 때, 그다음에 올 가장 확률이 높은 단어를 예측하는 매우 정교한 수학적 함수"

쉽게 이해하기 위해 한 편의 영화 대본이 있다고 상정해 보겠습니다. 대본의 절반이 찢어져서 사람이 질문하는 대사만 남아 있고, AI가 대답하는 부분이 사라진 상태입니다. 우리가 가진 기계에 이 남은 대본을 입력하면, 기계는 그 뒤에 올 가장 그럴듯한 단어 하나를 예측합니다. 그 단어를 대본 뒤에 붙이고, 다시 다음 단어를 예측하는 과정을 수없이 반복하면 완벽한 문장이 완성됩니다. 우리가 ChatGPT와 나누는 유려한 대화는 사실 이러한 '순차적인 다음 단어 예측(Next-Token Prediction)'의 반복으로 이루어집니다.

여기서 중요한 점은 LLM이 단 하나의 단어를 확정적으로 찍어내는 것이 아니라, 다음에 올 수 있는 수많은 단어들의 '확률 분포'를 계산한다는 것입니다.

결정론적 모델(Deterministic)과 무작위성(Randomness): 원래 언어 모델 자체는 입력이 같으면 결과가 같아야 하는 수학적 함수입니다. 하지만 매번 가장 확률이 높은 단어만 선택하게 되면 AI의 답변이 지나치게 딱딱하고 뻔해집니다. 그래서 실제 서비스에서는 가끔 확률이 조금 낮은 단어도 랜덤하게 선택하도록 설정을 가미합니다. 이 덕분에 AI는 매번 다른 답변을 내놓으며, 훨씬 더 자연스럽고 창의적인, 즉 '사람이 풍기는 듯한' 답변을 할 수 있게 됩니다.

2. LLM의 규모감: 파라미터(Parameter)와 가중치

왜 그냥 언어 모델이 아니라 '대규모(Large)' 언어 모델이라고 부를까요? 그 이유는 모델이 가진 파라미터(Parameter, 매개변수) 혹은 가중치(Weight)의 개수가 상상을 초월할 정도로 많기 때문입니다.

인공지능 모델 내부에는 수백억 개에서 수천억 개에 달하는 '가상의 다이얼(Dial)'이 존재한다고 상상하시면 됩니다. 이 다이얼들을 어떻게 돌려놓느냐에 따라 입력된 문장을 해석하고 다음 단어를 예측하는 수학적 결과가 완전히 달라집니다.

초기 인공지능은 이 다이얼의 값들이 무작위(Random)로 설정되어 있어 아무런 의미 없는 말을 배설하지만, 막대한 양의 데이터를 학습하면서 이 다이얼들을 정교하게 조정해 나갑니다. 이 다이얼의 개수가 수천억 개에 이르는 규모이기 때문에 '대규모 언어 모델'이라는 이름이 붙은 것입니다.

학습 데이터의 양: 초기 모델인 GPT-3가 학습한 텍스트의 양만 해도, 사람이 쉬지 않고 하루 24시간 동안 읽는다고 가정할 때 무려 2,600년 이상이 걸리는 분량입니다. 최신 모델들은 이보다 훨씬 더 거대한 인류의 지식 전반을 학습했습니다.

3. LLM의 4가지 핵심 핵심 기술

① 데이터 인코딩과 단어 임베딩 (Word Embedding)

컴퓨터는 '사과', '인간', '행복' 같은 텍스트 언어를 직접 이해할 수 없습니다. 컴퓨터가 이해할 수 있는 것은 오직 '숫자'뿐입니다. 따라서 LLM의 첫 단추는 현실의 언어를 숫자의 형태로 바꾸는 인코딩(Encoding) 작업입니다.

이때 단순히 단어마다 고유 번호(예: 사과는 1번, 바나나는 2번)를 매기는 것이 아니라, 단어 임베딩(Word Embedding) 기술을 사용합니다. 단어 임베딩은 각 단어를 수많은 숫자의 나열인 '숫자 벡터(Vector)'로 변환하는 기술입니다. 이 숫자 벡터 속에는 해당 단어가 가진 '의미'와 '맥락적 특징'이 다차원 공간상의 좌표로 녹아들어 있습니다. 이를 통해 컴퓨터는 단어와 단어 사이의 유사성과 관계를 수학적으로 계산할 수 있게 됩니다.

② 트랜스포머(Transformer) 구조와 병렬 처리 (Parallel Processing)

2017년 이전의 기존 언어 모델들은 문장을 읽을 때 인간처럼 단어를 하나씩 순차적으로(Sequential) 처리했습니다. 앞 단어를 읽고, 그다음 단어를 읽는 방식이었습니다. 이 방식은 치명적인 단점이 있었는데, 문장이 길어지면 앞부분의 내용을 까먹거나 학습 속도가 너무 느리다는 점이었습니다. 무엇보다 컴퓨터 여러 대를 동시에 가동하는 '병렬 처리'가 불가능했습니다.

이 판도를 완전히 뒤바꾼 것이 2017년 구글 연구팀이 발표한 '트랜스포머(Transformer)'라는 새로운 모델 구조입니다. 트랜스포머는 문장을 순차적으로 읽지 않고, 전체 문장을 한꺼번에 통째로 입력받아 병렬로 처리(Parallel Processing)합니다. 이 혁신 덕분에 대규모 자원을 가진 GPU 컴퓨터들을 동시에 활용하여 상상을 초월하는 속도로 거대한 데이터를 학습시키는 것이 가능해졌습니다. 오늘날 생성형 AI 혁명은 모두 이 트랜스포머 구조 덕분에 시작되었다고 해도 과언이 아닙니다.

③ 어텐션 메커니즘 (Attention Mechanism)과 피드포워드 (Feed-Forward)

트랜스포머 내부에서 핵심적인 연산을 담당하는 두 가지 축이 바로 어텐션(Attention)과 피드포워드 네트워크(Feed-Forward Network)입니다.

어텐션(Attention): 전체 문장이 동시에 컴퓨터에 들어왔을 때, 단어 벡터들이 서로 정보를 주고받으며 주변 맥락에 따라 자신의 의미를 적절히 조정할 수 있도록 만드는 핵심 알고리즘입니다.
- 예시: 우리말에서 '눈'이라는 단어가 단독으로 쓰이면 '신체 부위'인지 '하늘에서 내리는 눈'인지 알 수 없습니다. 하지만 어텐션 알고리즘을 거치면, 주변에 '내린다'라는 단어가 있을 때 '눈' 벡터는 '하늘에서 내리는 눈'의 의미에 더 집중(Attention)하여 자신의 벡터 값을 수정합니다. 반대로 '보는 눈이 많다'라는 문장 속에서는 '사람의 눈'을 의미하는 벡터로 조율됩니다. 이 과정을 수많은 레이어(Layer)를 거쳐 반복하면서 문맥을 완벽히 압축한 최종 벡터가 완성됩니다.
피드포워드(Feed-Forward): 어텐션이 단어 간의 관계와 맥락을 파악하는 역할이라면, 피드포워드 네트워크는 모델이 더 많은 방대한 언어적 패턴과 지식을 고정된 형태로 저장하고 처리할 수 있도록 돕는 지식 저장소의 역할을 수행합니다.

④ 역전파 알고리즘 (Backpropagation)을 통한 모델 훈련

기계가 다음 단어를 잘 맞추게 하기 위해 파라미터(다이얼)를 조정하는 수학적 과정을 역전파(Backpropagation)라고 합니다.

학습 과정에서 모델에게 문장의 앞부분을 주고 마지막 단어를 예측해보라고 시킵니다. 당연히 처음에는 틀린 단어를 예측할 것입니다. 이때 실제 정답 단어와 모델이 예측한 결과 사이의 '오차(Loss)'를 계산한 뒤, 이 오류 신호를 모델의 뒤쪽에서부터 앞쪽으로 거꾸로 전파(Backpropagation)시키면서 "정답에 가까워지려면 각 다이얼을 어느 방향으로 얼마나 미세하게 돌려야 하는지" 계산하여 가중치를 살짝씩 조정합니다.

이 작업을 수천억 번 반복하면 모델은 단순히 암기하는 것을 넘어, 처음 보는 문장을 마주해도 그럴듯한 맥락을 유추해 내는 '일반화(Generalization) 능력'을 갖추게 됩니다.

4. 거대한 인프라의 필요성: 컴퓨터 연산량과 GPU

이러한 LLM을 만들기 위해 필요한 연산량은 인간의 상상을 초월합니다. 영상에서는 직관적인 수치로 이를 경고합니다.

만약 1초에 10억 번의 연산(덧셈, 곱셈 등)을 수행할 수 있는 고성능 컴퓨터가 있다고 가정해 봅시다. 이 컴퓨터 딱 한 대를 가지고 초창기 ChatGPT 수준의 모델을 처음부터 끝까지 훈련시키려면 과연 시간이 얼마나 걸릴까요? 1년? 1만 년? 정답은 무려 '1억 년' 이상입니다. 심지어 1억 년을 채워도 현재 수준의 초고성능 모델들의 절반도 채 만들지 못합니다.

이 말도 안 되는 시간의 한계를 극복하기 위해 테크 기업들은 수만 대의 컴퓨터 칩을 하나로 묶어 동시에 연산하는 방식을 택합니다. 이때 단순 계산을 초고속으로 대량 병렬 처리하는 데 특화된 반도체 칩이 바로 GPU(그래픽 처리 장치)이며, 오늘날 엔비디아(NVIDIA) 같은 회사들이 전 세계적인 주목을 받는 이유가 바로 이 LLM의 물리적 인프라 한계를 깨부수는 핵심 열쇠를 쥐고 있기 때문입니다.

5. 학습의 2단계: 사전 훈련(Pre-training)과 인간 피드백 기반 강화학습(RLHF)

단순히 인터넷의 글들을 긁어모아 "다음 단어 맞추기"만 시킨 모델을 '사전 훈련된 모델(Pre-trained Model)'이라고 부릅니다. 하지만 이 상태의 모델은 훌륭한 AI 비서가 되기엔 무리가 있습니다. 예를 들어 사용자가 "오늘 날씨 어때?"라고 물었을 때, 다음 단어 예측 기계는 인터넷에서 흔히 볼 수 있는 "1. 서울 날씨, 2. 부산 날씨" 같은 다른 질문 목록을 이어 붙이는 식으로 오작동할 수 있기 때문입니다.

따라서 테크 기업들은 1차로 사전 훈련을 끝낸 모델을 가지고 인간의 비서 역할을 수행할 수 있도록 2차 미세조정(Fine-Tuning)을 거칩니다. 그 대표적인 기술이 바로 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)입니다.

RLHF의 작동 방식: 사람이 직접 모델의 잘못된 답변을 올바르게 수정해 주거나, AI가 내놓은 여러 개의 답변 중 "이 답변이 더 안전하고 친절하며 유용하다"라고 순위를 매겨 골라줍니다. 모델은 이 피드백 점수를 바탕으로, 인간 사용자가 더 선호하고 가치 있게 여기는 방향으로 다음 단어를 예측하도록 다이얼을 다시 한 번 최종 조정하게 됩니다. 우리가 경험하는 똑똑하고 예의 바른 ChatGPT는 바로 이 RLHF 단계를 거쳤기 때문에 탄생할 수 있었습니다.

결론: 설명할 수 없지만 강력한 AI의 시대

LLM은 인공지능 연구자들이 구조와 알고리즘을 설계한 것은 맞습니다. 하지만 내부에 들어있는 수천억 개의 다이얼(파라미터)들이 정확히 어떤 유기적 관계를 맺으며 특정 답변을 도출해냈는지, 그 구체적인 인과관계를 수학적으로 완벽히 설명하는 것은 현대 과학으로도 굉장히 어려운 영역(블랙박스 문제)입니다.

그 원인을 완벽하게 설명하긴 어렵지만, 이 모델이 우리에게 보여주는 결과물은 직장인의 업무 프로세스를 효율화하고 대학생들의 학업 생산성을 돕는 데 놀라울 정도로 유용하고 강력합니다.

단순히 텍스트를 기계적으로 생성하는 것을 넘어 맥락과 의미를 이해하는 LLM의 작동 원리. 기술의 표면만 보는 소비자가 될 것인지, 그 이면의 메커니즘을 이해하고 비즈니스와 학업에 영리하게 녹여낼 지 지식인으로서 고민해 볼 시점입니다.

💡 한눈에 보는 핵심 요약 가이드 (대학생·직장인 상식용)

기술/개념	쉬운 한 줄 정의	비즈니스·학업적 의미
다음 단어 예측	앞 문맥을 보고 이어질 가장 확률 높은 단어를 찾는 과정	LLM은 정답을 '검색'하는 게 아니라 확률로 문장을 '생성'함
파라미터 (Parameter)	모델 내부에 존재하는 수천억 개의 '미세조정 다이얼'	파라미터가 많을수록 더 복잡한 지식과 논리 구조를 저장 가능
트랜스포머 (Transformer)	문장 전체를 통째로 입력받아 한 번에 계산하는 혁신적 구조	대량의 데이터를 GPU를 통해 초고속으로 병렬 학습할 수 있게 만듦
어텐션 (Attention)	주변 단어들과의 관계를 파악해 단어의 정확한 문맥적 의미를 조율하는 기술	동음이의어나 긴 문장 속에서도 맥락을 놓치지 않고 정확히 이해함
RLHF	AI의 답변을 인간이 채점하고 교정하여 더 나은 비서로 훈련하는 강화학습	무작위 예측 기계에 '인간의 윤리, 선호도, 답변 스타일'을 주입함

https://youtu.be/HnvitMTkXro?si=kskDRx2EvvKny2-B

해당 글은 위 영상을 시청한 후 개인적으로 정리한 블로그 글 입니다.

현재글[개인공부]대규모 언어 모델(LLM) 개요

seongw00 님의 블로그

seongw00 님의 블로그 입니다.

리눅스,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

seongw00 님의 블로그