이번 리서치 클럽을 신청해주신 분들은 기본적으로 AI에 대한 이해도가 있을 것으로 추측하지만, 그래도 AI(여기서는 LLM으로 한정)가 무엇인지 정도는 한번 확인하고 넘어가면 좋지 않을까 싶어서 준비했습니다. 단순히 작동 원리를 알아가기 보다는, 왜 갑자기 AI가 다시 핫해졌으며, 이걸 만든 사람들은 왜 이걸 만들었는지를 알아가보면 좋을 것 같습니다.

GPT-3, 인류 역사상 가장 뛰어난 언어 AI

GPT-3, Beyond the Hype

OpenAI가 개발한 GPT는 컴퓨팅 파워를 대규모로 끌어올려서 학습시킨 AI 모델로, GPT-3의 경우 엔비디아 V100 GPU를 만장 활용해서 학습시켰고 약 1750억개의 파라미터를 보유하고 있습니다 (파라미터는 인간 뇌에 있는 뉴런과 비슷하다고 보시면 됩니다). 아주 쉽게 이야기해서 뉴런 갯수를 올렸더니 어느 순간부터 뇌가 아주 비상해졌다고 보시면 됩니다. 물론 단순히 파라미터의 갯수만 올리지는 않았고, “Attention is all you need”라는 논문을 통해 나온 트랜스포머 알고리즘을 통해 비약적인 성능 상승을 이뤄내며 지금과 같은 엄청난 파급력을 가져올 수 있었습니다.

구체적으로 GPT는 다음에 올 단어를 예측하는 방식으로 학습을 했습니다. 예를 들어 “오늘" → “날씨는"을 맞히고, 다음으로 “오늘 날씨는" → “좋았다”를 맞히는 것처럼 다음에 무엇이 올지를 학습하는 방식입니다. 이러한 학습방식을 컴퓨팅 파워를 키워서 시도해보았더니 이전보다 월등하게 성능이 좋아진다는 것을 깨닫고는 큰 투자를 집행해왔고, 결국 지금의 GPT가 탄생한 것입니다. 그리고 우리는 이러한 모델을 거대언어모델(LLM)이라고 부릅니다.

위의 학습 과정을 이해하시면 왜 LLM이 ‘생성’ AI라고 불리는지 직관적으로 이해하실 수 있고, 오류를 발생시키는 환각 현상 또한 왜 발생하는지 이해하실 수 있을 것입니다. 또한 일반적인 머신러닝 모델은 어떠한 일을 수행하기 위해서는 그에 해당하는 데이터를 학습시켜야 했다면, LLM은 인터넷 상에 있는 일반적인 텍스트 데이터들로 학습을 시켜놓았는데 그 학습된 AI가 다양한 테스크에서 범용적으로 사용될 수 있다는 특성을 지닌다는 점이 매우 중요합니다 (그래서 API 제공을 통한 인프라와 어플리케이션 사업자가 분리될 수 있는 환경이 마련되었기 때문이죠).

요약하면 컴퓨터의 뇌를 키워놨더니 범상치 않은 녀석이 탄생해버렸고, 이 녀석은 범용성을 지니고 있기 때문에 활용할 수 있는 분야가 무궁무진해졌다고 보시면 되고, 이러한 특성들 때문에 AI가 급부상을 하게 된 것이라고 보시면 되겠습니다.

How OpenAI Grows

OpenAI는 어떻게 성장했는가?

재밌는건 AI 산업의 돌파구가 된 전설의 논문 ‘Attention is all you need’은 구글브레인 팀에서 내놓은 논문인데, 그 수혜는 다른 기업이 누리고 있다는 사실입니다. OpenAI가 그 주인공인데요, 샘 알트먼을 주축으로 한 OpenAI 팀은 해당 논문을 바탕으로 GPT를 구현해내고 상업화에 성공하면서 OpenAI는 무려 $80b (약 105조원)의 가치를 지닌 기업으로 거듭났습니다 (그런데 결국 마이크로소프트가 가져가버렸네요…)

그럼 어떻게 OpenAI는 탄생하게 되었을까요? 당시 샘 알트만과 일론 머스크는 빅테크 기업들이 AI를 발전시켜나가는 것에 불안을 느꼈고(구글의 딥마인드 인수가 트리거였습니다), 그들이 자체적으로 안전한 AI를 만들어내어야 한다는 생각에 이르게 됩니다. 그렇게 해서 2015년에 AI를 연구하는 비영리단체 OpenAI가 출범하게 됩니다 (하지만 19년도에 10억달러를 투자한 MS가 2020년 GPT-3가 출시된 후 독점 사용권을 가져가게 되었고, 현재는 다들 아시다시피 MS가 거의 절반의 지분을 가져가면서 더이상 비영리단체는 아닙니다). 현재 OpenAI의 비전은 AGI(일반인공지능)을 만드는 것으로, 인류 모두에계 혜택을 제공하는 AI 모델을 만드는 것을 목표로 하고 있습니다. 즉, OpenAI는 계속해서 더 나은 모델을 만들어나갈 것이 분명해보입니다.

개인적으로는 샘 알트만이 OpenAI 창업을 선택했던 이유가 굉장히 궁금했었는데요. 당시 그는 이미 YC 대표직을 수행하면서 업계 내 슈퍼스타였기 때문에 수많은 선택지들이 존재했을테고, 게다가 YC 특성상 세상의 거의 모든 분야와 기술을 볼 수 있는 위치에 있었기 때문에 그의 선택은 많은걸 내포하고 있다고 생각했거든요. 그러던 중 샘 알트만이 한국에 방문해서 한 말 중에서 창업의 힌트를 찾을 수 있었습니다. “저희는 성공이 보장된 것은 아니지만 성공할 수 있다는 강한 확신을 가지고 있었습니다. 우리는 신경망이 작동하고 있고 규모에 따라 개선되는 것 같다는 관찰을 바탕으로 회사를 시작했습니다. (출처)”. 결론적으로 그의 관찰이 맞았고, 매우 탁월한 선택이 되었네요.

‘챗GPT의 아버지’ 샘 알트만에 대해 알아보자

마지막으로 OpenAI 만큼이나 샘 알트만이라는 사람도 매우 흥미로운데요. 그에 대해서 잘 설명한 아티클이 있어 공유드립니다. 여유 있으시면 읽어보시길 추천드릴께요.

여담으로 이번 내용을 일주일 전에 준비했는데 샘 알트만 해프닝이 생겨서 매우 당황했네요. 아직도 대체 무슨 일이 일어났던거지 싶은데… 결론적으로는 마이크로소프트가 완전한 승자가 되어버린 것 같습니다.

내심 샘 알트만이 독립해서 새로운 회사 만드는 모습을 기대했는데 마소로 갈줄이야. 그동안 자신이 OpenAI로 쌓아올린 것들을 쉽게 포기하긴 어려웠던게 아닐까 싶네요. OpenAI는 단순히 소프트웨어를 만들어낸 수준을 넘어서 거대한 컴퓨팅 인프라를 쌓아올린 것과 마찬가지이니 새롭게 시작하기에는 부담이 되지 않았을까 싶습니다. 결과적으로 타이틀만 바뀌고 같은 일을 하게 된 것 같은데, 다시봐도 기묘한 해프닝이었네요 😅

Scale entanglement

추가로 이 글은 래블업이라는 LLM 솔루션 회사를 운영하시는 신정규 대표님께서 작성하신 언어모델 연대기를 적으신 글인데, 그동안 AI 모델들이 어떤 과정을 거쳐서 지금의 모습까지 왔는지 변천사를 정말 실감나게 체감하실 수 있습니다. 오늘 주제에 대해서 깊게 이해해볼 수 있는 글이라서 시간 괜찮으시면 읽어보시길 추천드립니다!

Q. 여러분들은 LLM을 어떻게 정의하시나요? (자신만의 언어로 표현해보면 좋을 것 같아요)