비전공자도 이해할 수 있는 챗GPT

박상길 지음 | 비즈니스북스

비전공자도 이해할 수 있는 챗GPT

박상길 지음

비즈니스북스 / 2025년 5월 / 404쪽 / 19,500원

제1장. 인간을 능가하는 GPT-4

인간을 능가하는 GPT-4의 등장

2022년 겨울에 등장했던 챗GPT는 놀라운 능력으로 세계인의 마음을 사로잡았습니다. 이후 불과 몇 개월 만인 2023년 봄, 새롭게 등장한 GPT-4의 성능은 정말 놀라웠습니다. 다양한 벤치마크에서 인간을 뛰어넘는 성능을 보여줬죠. 변호사 시험을 보게 했을 때, 기존 챗GPT는 400점 만점에 213점으로 하위 10% 수준이었습니다. 그러나 GPT-4는 298점을 받아 상위 10% 수준에 도달했죠. 인공지능 관련 업계에서는 2016년 알파고가 세상을 놀라게 한 이후 두 번째 빅웨이브가 도래했다고 평가하고 있습니다.

GPT-4는 오픈AI가 개발한 초거대 언어 모델(Large Language Model; LLM)의 이름입니다. 챗GPT는 GPT-4와 같은 모델을 활용하는 챗봇 서비스의 이름입니다. 챗GPT는 마치 사람처럼 대답합니다. 심지어 사람보다 더 나은 대답을 내놓기도 하죠. 코딩, 보고서 작성, 데이터 처리와 같은 다양한 업무에서 효율성을 높이고 도움을 줍니다. 그뿐 아니라 글쓰기, 콘텐츠 기획 등의 창작 활동에도 영감을 주며 요청한 주제에 대해 일목요연하게 정리된 정보를 제공하기도 합니다.

챗GPT가 처음 등장했을 때, 돌풍의 핵심은 뭐니 뭐니 해도 전 세계를 대상으로 과감하게 무료 서비스를 진행했다는 점이었습니다. 사실 GPT 이전에도 챗봇과 비슷한 기술은 이미 많이 나와 있었습니다. 하지만 생성형 인공지능의 위험성과 엄청난 운영 비용 탓에 감히 공개적으로 데모를 운영할 생각은 아무도 하지 못했죠.

오픈AI가 전 세계를 대상으로 공개 서비스를 시작하겠다고 결정한 것은 이른바 ‘경제적 해자’를 구축한 사례라 할 수 있습니다. 오픈AI는 가장 먼저 서비스를 출시함으로써 높은 인지도를 확보하고, 다른 회사들이 쉽게 넘볼 수 없는 해자를 만들어냈죠. 모두가 망설이는 사이, 아무도 시도하지 않았던 도전에 뛰어들어 엄청난 성공을 거두었습니다. 이제 챗GPT는 역사상 가장 빠르게 성장한 서비스라는 타이틀을 얻었습니다. 전문가들은 챗GPT와 같은 생성형 인공지능 기술이 상상하지 못했던 방식으로 일상과 사회를 변화시킬 것이라고 전망하고 있습니다.

챗GPT 같은 서비스를 개발하는 데는 막대한 비용이 듭니다. 그렇다 보니 대부분의 회사들은 자사의 LLM을 외부에 공개하지 않는 것이 일반적입니다. 챗GPT 역시 서비스는 공개되어 있지만 모델 자체는 공개하지 않고 있죠. 하지만 이렇게 엄청난 비용을 들여 만든 LLM을 외부에 공개하는 기업도 있습니다. 대표적인 기업이 페이스북과 인스타그램을 운영하는 메타입니다.

메타는 GPT-4에 견줄 만한 성능을 지닌 모델 라마를 누구나 사용할 수 있도록 오픈소스로 공개하며 전 세계 개발자 커뮤니티로부터 큰 호응을 얻고 있습니다. 마크 저커버그는 오픈소스의 힘을 믿는다는 야심 찬 선언을 내놓았습니다. 리눅스가 오픈소스로 마이크로소프트 윈도우에 맞서 서버와 안드로이드 운영체제의 핵심으로 자리 잡았듯, 메타 역시 라마를 무료로 공개함으로써 자사의 LLM이 챗GPT를 넘어 전 세계 다양한 서비스의 표준이 되기를 기대하고 있습니다.

이처럼 초미의 관심을 받고 있으니 엄청난 돈도 함께 몰리는 게 당연합니다. 마이크로소프트는 오픈AI에 130억 달러(18조 원)가 넘는 돈을 투자했습니다. 오픈AI의 기업가치는 2025년 2월 기준 3,000억 달러로 우리 돈으로 무려 430조 원이 넘습니다. 아직 상장도 하지 않은 스타트업이 이 정도라니, 챗GPT와 LLM에 대한 시장의 뜨거운 관심이 어느 정도인지 짐작할 수 있습니다.

과연 GPT-4의 비밀은?

그렇다면 GPT-4는 어떻게 구현됐을까요? GPT-3의 매개변수가 1,750억 개였으니 사람들은 GPT-4의 매개변수가 그 1,000배쯤 되는 100조 개에 달해 인간 두뇌의 시냅스와 비슷한 수치가 될 거라 예상했습니다. 정말로 GPT-4의 매개변수는 인간 두뇌와 비슷한 수준일까요?

오픈AI는 GPT-4와 관련한 기술에 대해 아무것도 공개하지 않기로 결정합니다. 통상적으로 함께 발표하던 연구 논문도 공개하지 않고, 단지 ‘기술 보고서’라는 이름으로 GPT-4가 얼마나 뛰어난 언어 모델인지를 자랑하고 소개하는 내용만 공개했습니다. 매개변수가 몇 개인지, 어떤 기술을 사용해 어떤 방식으로 학습했는지, 모델은 어떤 구조로 되어 있는지 이 모든 것을 비밀에 부쳤죠.

다행히 몇 가지 신뢰할 만한 정보가 있긴 합니다. 조지 호츠가 얘기한 정보인데, 그는 17세의 나이로 아이폰이 세상에 출시된 지 불과 두 달여 만에 해킹한 인물입니다. 20세에는 소니가 절대 불가능하다고 호언장담했던 플레이스테이션을 해킹한 것으로 유명하죠. 어느 날 그가 팟캐스트에 출연해 이렇게 말했습니다. “GPT-4는 2,200억 개의 매개변수(220B)를 분야별 8개 모델로 학습하고 게이트를 통해 가중치를 조정하는 전문가 혼합(MoE) 구조를 사용했습니다.”

MoE라는 약자로 더 자주 쓰이는 전문가 혼합(Mixture of Experts) 방식은 여러 개의 모델을 만들어두고 필요한 모델만 선택하여 계산하는 구조를 말합니다. 예를 들어 하나는 수학, 하나는 국어, 하나는 영어, 하나는 과학 이런 식으로 각각의 모델을 학습했다고 가정해보죠. 이때 프롬프트가 수학 관련이라면 수학 모델로 연결하고, 과학 관련이라면 과학 모델로 연결한다면 훨씬 더 효율적으로 계산할 뿐 아니라 더 나은 결과를 얻을 수 있겠죠? 원래 LLM은 모델 전체가 계산에 모두 투입되는 구조인데, MoE는 이처럼 필요한 전문가 모델만 선별적으로 계산에 투입하여 불필요한 계산을 줄일 뿐 아니라, 더 정확한 답변을 얻을 수 있습니다.

어쨌든 조지 호츠는 GPT-4가 이런 MoE 구조를 사용한다고 말했습니다. 220B 전문가 모델 8개로 구성됐다는 거죠. 2024년 봄에 열린 GTC 2024에서 엔비디아의 젠슨 황이 LLM을 소개했습니다. 그는 GPT-4는 1.8T 모델이라고 언급하며 비공식적으로 이 사실을 확인해주기도 했습니다. 220B 모델 8개는 총 1.76T(2,200억 x 8)이고, 이를 반올림하면 1.8T가 되죠. 1조 8,000억 개라니 엄청난 숫자이지만 여전히 인간 두뇌 시냅스의 개수인 320조 개에는 한참 못 미치는 수치이긴 합니다.

그런데 왜 오픈AI는 사명인 ‘오픈’과 달리 갑자기 기술을 공개하지 않게 됐을까요? 인간을 뛰어넘을 수 있는 인공지능 기술이 무분별하게 공개될 경우 오히려 인류에게 더 위험할 수 있기 때문에 안전하고 책임감 있게 기술을 배포하기 위해서라는 게 비공개하는 이유입니다. 오픈AI는 GPT에 대해 핵을 다룰 때와 비슷한 관점으로 접근합니다. 물론 이는 표면적인 이유에 불과하다는 지적도 있습니다. 위험해서 공개하지 않는 게 아니라 자사의 이익을 극대화하기 위해 더 이상 공개하지 않는다는 거죠.

어쨌든 GPT-4는 다시 한번 세상을 뒤흔들고 있습니다. 물론 경쟁 상대도 만만치 않습니다. 오픈AI의 뒤를 바짝 쫓는 앤트로픽의 클로드(Claude)가 있고, 세계 최고의 빅테크 기업인 구글의 제미나이도 있죠. 그뿐 아니라 메타가 오픈소스로 공개한 라마까지 각 분야의 선두주자들이 빠른 발전을 예고하고 있습니다.

이처럼 주요 기술 기업들이 총력을 기울여 개발에 매진하는 것은 GPT-4 이후 다가올 혁신적 변화를 누구보다도 잘 알고 있기 때문입니다. 챗GPT는 이미 우리의 일상을 크게 변화시켰고, 한층 진화한 GPT-4는 그 영향력을 더욱 확장시키고 있습니다. 이제 우리는 GPT-4와 그 이후의 모델이 가져올 변화의 물결 속에서 과연 어떤 미래를 만들어가게 될까요?

제2장. 기계번역을 정복한 인공지능

인공 신경망, 언어에 도전하다

2016년 겨울 《뉴욕타임스》는 ‘위대한 인공지능 깨어나다’라는 제목으로 인공지능 서비스의 본격적인 출현을 알리는 특집 기사를 실었습니다. 인공지능이라는 단어가 등장한 지 70년이 넘었지만, 이제서야 진정한 인공지능의 시대가 열렸다는 걸 알린 셈이죠. 기사 내용은 이렇습니다.

2016년 11월 초 온라인으로 강의를 준비하던 도쿄대학교의 레키모토 준이치 교수는 구글 번역의 품질이 갑자기 엄청나게 좋아졌다는 사실을 깨닫습니다. 호기심이 발동한 그는 구글 번역을 실험합니다. 먼저 『위대한 개츠비』에서 문장을 뽑아 무라카미 하루키가 일본어로 번역한 문장과 구글이 번역한 문장의 품질을 비교했습니다. 무라카미 하루키의 번역문에서는 하루키 특유의 문체가 느껴진 반면, 구글이 번역한 문장은 훨씬 더 직관적이고 이해하기 쉬웠습니다. 불과 하루 전만 해도 구글의 영어-일본어 번역은 제대로 읽기도 어려울 정도로 엉망이었는데, 갑자기 번역 품질이 획기적으로 개선된 것이죠. 구글이 새로 도입한 기술은 바로 인공신경망이었습니다.

인공 신경망을 도입한 번역은 놀라운 성과를 냈습니다. 신경망 기반은 문장 전체를 마치 하나의 단어처럼 통째로 번역해서 훨씬 더 자연스러운 번역이 나오게 했습니다. 기존에는 규칙에 따라 번역하거나 단어별로 먼저 번역하고 문장을 조합하는 과정을 거쳤습니다. 하지만 인공 신경망을 도입하면서 이러한 과정을 모두 생략하고 문장을 통째로 번역해냈습니다. 인공 신경망이라는 거대한 모델과 이를 견인할 수 있는 방대한 데이터를 확보하면서 이것이 가능해졌죠. 문장을 통째로 번역하면서 번역 과정 자체는 오히려 훨씬 더 단순해졌습니다. 필요한 건 방대한 데이터뿐이었죠.

어떻게 이렇게 단순한 방식으로 훨씬 더 좋은 번역문을 만들까요? 사실 이런 번역 과정은 우리 일상에서도 쉽게 찾아볼 수 있습니다. 학창시절에 공부로만 영어를 접한 형과 미국에서 살다온 사촌동생의 번역 실력을 한번 비교해보죠.

형은 먼저 주어와 동사를 찾아서 문장이 어떻게 끝나는지 예상한 다음 형용사가 무엇을 수식하는지, 접속사가 어디와 연결되어 있는지 등을 파악합니다. 어릴 때부터 열심히 공부한 영문법과 영한사전을 붙들고 말이죠. 그러나 좀처럼 제대로 번역이 되지 않습니다. 반대의 경우는 더욱 심각합니다. 우리말을 영어로 바꿔보라고 하면 어디서부터 시작해야 할지 막막합니다.

그런데 어릴 때 미국에서 살다 온 사촌 동생에게 “이 문장은 영어로 뭐라고 하니?”라고 묻자 1초의 망설임도 없이 영어로 술술 말을 합니다. 형은 동생에게 도대체 어떻게 했는지 물어봅니다. 그랬더니 동생은 “난 그냥 평소에 말하는 대로 했을 뿐인데?”라며 주어나 동사를 공부해본 적도 없다고 합니다. 그 말을 들은 형은 지금까지 자신은 무슨 공부를 했던 것인지 한탄하며 울고 싶어집니다.

여기서 영문법 책을 열심히 공부한 형은 규칙 기반, 문장을 술술 번역하는 사촌 동생은 인공 신경망 기반에 비유할 수 있습니다. 형은 문법을 열심히 공부했지만 아무리 공부해도 일정 수준 이상으로 영어 실력을 쌓기는 어렵습니다. 규칙 기반으로는 복잡한 문법이 적용된 영어 문장을 매끄럽게 번역하지 못했던 것과 비슷하죠. 신경망 기반은 마치 사촌 동생처럼 엄청나게 많은 데이터를 학습해 자연스럽게 영어를 번역해냅니다. 그저 수많은 문장을 열심히 학습하며 점점 더 좋은 성능을 내죠.

이번에는 신경망 기반 기계번역의 번역 과정을 좀 더 구체적으로 살펴보겠습니다. 문장을 압축하는 과정과 풀어내는 과정을 구체적으로 살펴봅시다. 먼저 문장을 압축하는 과정에서는 문장을 띄어쓰기 단위로 구분한 다음 차례대로 인공 신경망을 통과하며 핵심적인 특징을 추출합니다. 여러 번의 계산을 거쳐 최대한 압축합니다. 이렇게 하면 마지막 단계에서 문장 전체의 의미를 압축한 벡터가 나옵니다. 이처럼 문장을 압축하는 부분을 인코더(Encoder)라고 합니다.

반대로 압축된 문장을 푸는 부분은 디코더(Decoder)라고 합니다. 압축된 벡터를 받아서 순서대로 풀어내는 거죠. 한 단어씩 차례대로 푸는데, 이때 두 가지 입력을 받습니다. 첫 번째는 앞선 단어의 번역이고, 두 번째는 인코더가 문장 전체를 압축한 벡터입니다. 이는 마치 영어시험을 볼 때 문제를 차례대로 해석해나가다가 막히는 순간 지문 전체를 힐끗 살피는 것과 비슷합니다. 문장 번역이 끝날 때까지 디코더는 계속해서 인코더가 압축한 문장 전체에 대한 벡터를 참조하면서 더욱 자연스러운 문장을 만들어 냅니다. 이런 방식으로 인공 신경망을 활용한 기계번역은 엄청난 성능을 보입니다. 문법은 하나도 모르지만 영어를 엄청 잘하는 사촌동생처럼 말이죠.

그러나 문제가 있었습니다. 문장이 길어질 경우 앞의 내용을 잊어버리는 경우가 흔했다는 점입니다. 맨 앞부터 차례대로 누적되는 특성상 필연적으로 뒷부분에 가면 앞부분 단어에 대한 가중치가 희미해졌거든요. 2014년에 이러한 한계를 극복하는 혁신적인 개념인 어텐션(Attention; 주목)이 등장합니다. 원리 자체는 간단합니다. 단어의 뜻 그대로 중요한 단어에 주목한다는 거죠. 어텐션은 중요한 단어에 별도로 가중치를 부여합니다. 그래서 주목을 뜻하는 어텐션이라는 명칭이 붙었죠. 이전에는 아무런 표시 없이 문장 전체를 통째로 압축했기 때문에 번역할 때 어떤 단어를 염두에 둬야 하는지 알 수 없었습니다. 그래서 번역의 질이 떨어졌죠. 하지만 어텐션은 압축할 때마다 중요한 부분을 적재적소에 표시해둘 수 있습니다. 실제로 어텐션은 기계번역의 성능을 크게 높였습니다. 덕분에 기계 번역은 이제 전문 번역가의 번역 못지않게 양질의 성능을 낼 수 있게 됐습니다.

이처럼 어텐션이 놀라운 성능을 보여주면서 급기야 어텐션만으로 인공신경망을 구성한 <필요한 건 어텐션뿐>이라는 논문도 나왔죠. 이 논문은 자연어 처리 분야에 엄청난 혁신을 불러일으킵니다. 특히 이 논문에서 소개한 딥러닝 아키텍처 트랜스포머(Transformer)는 기계번역의 성능을 상당히 높여놓습니다.

트랜스포머는 기존의 신경망과 같은 순환 구조를 사용하는 대신 오로지 어텐션만으로 모델을 구성했다는 점입니다. 더 이상 순환 신경망이 아닌 거죠. 그래서 논문 제목이 <필요한 건 어텐션뿐>이었던 겁니다. 이처럼 어텐션은 처음에는 기계번역의 성능을 보조하는 역할로 등장했으나 이제는 기계번역의 핵심이 되었습니다. 어텐션을 핵심 알고리즘으로 삼은 트랜스포머 모델은 사실상 모든 기계번역모델을 대체했고, 최근까지도 신경망 기반 기계번역은 모두 이 트랜스포머 모델을 기반으로 하고 있습니다. 이름 그대로 어디서나 변신할 수 있는 만능 변신 로봇이 된 셈입니다.

이후 트랜스포머 모델이 도입되면서 기계번역은 놀라운 성능을 보입니다. 이에 연구자들은 트랜스포머 모델 자체에 관심을 기울입니다. 번역에서 놀라운 성능을 보여줬으니 이 외의 다른 자연어 처리도 잘할 거라 생각했죠. 다양한 응용 모델이 개발됐는데, 그중에서 가장 유명한 두 가지 모델은 구글에서 만든 버트(BERT)와 오픈AI에서 만든 GPT입니다.

제3장. 챗GPT를 완성한 비밀 레시피

세상을 바꿀 GPT 역사의 시작

2018년 오픈AI가 GPT-1을 발표했을 때, 처음에는 그리 큰 기대를 불러일으키지 못했습니다. 당시 오픈AI의 주된 연구 분야는 강화학습이었고, 언어 모델에는 크게 신경 쓰지 않던 상태였거든요.

오픈AI는 맨 처음에 발표했던 GPT-1(2018년)과 그다음 버전인 GPT-2(2019년)까지는 상세한 내용을 논문으로 공개했습니다. 하지만 2020년에 발표한 GPT-3부터는 더 이상 관련 정보를 공개하지 않습니다. 1,750억 개(175B로 표기)의 매개변수와 대략적인 구조는 논문으로 공개했지만 정확히 어떻게 동작하는지는 비밀에 부쳤고 코드 또한 공개한 바 없습니다.

그렇다면 여기서 잠깐, 매개변수(parameter)란 무엇을 의미할까요? 매개변수는 모델의 학습 과정에서 조정되는 가중치 값들을 의미합니다. 하나하나가 숫자로 된 저마다의 값을 갖고 있죠. 매개변수가 10억 개라는 얘기는 [0.24, 1.23, 1.43, 0.11, 0.45, …] 이렇게 된 숫자가 10억 개 있다는 얘기입니다. GPT-3의 매개변수는 175B입니다. 1,750억 개라는 얘기죠. 정확히는 조절할 수 있는 숫자를 175,181,291,520개 갖고 있다는 말입니다. 하나하나가 저마다 다이얼 형태로 조정할 수 있는 값입니다. 이 값들은 학습 과정에서 자동으로 조정됩니다.

전문 열람 제한

미가입 상태이므로 요약본의 일부만 제공됩니다.
더 깊이 있는 내일의 통찰력과 지식 에너지를
프리미엄 무제한 이용권으로 충전해 보세요!