초 거대 인공지능 ChatGPT

초 거대 인공지능 ChatGPT

ChatGPT 열풍이 놀랍습니다. 챗 GPT와 채팅하다보면 옆자리에 앉은 똑똑한 친구가 친절하게 알려주는 것과 같은 효과를 볼 수 있습니다. 이번 포스팅에서는 ChatGPT가 무엇인지 알아보겠습니다. 한빛미디어 박태웅 의장께서 쉽게 설명한 내용을 정리하였습니다.

 

 


글의 순서

인공지능 ChatGPT (Chat Generative Pre-trained Transformer)
거대 인공지능 챗 GPT
거대 인공지능이 등장한 배경 : GPU의 발전
ChatGPT란 무엇인가?
딥러닝과 인공지능 : 고양이 사진을 가려내시오


인공지능 ChatGPT (Chat Generative Pre-trained Transformer)

커피와 인공지능,
커피 마시며 가볍게 읽는 머신러닝, 인공지능
이 두편의 포스팅에서 가볍게 인공지능에 대해 살펴봤었는데요. 2023년 ChatGPT가 등장하면서, 그리고 2023년 3월 GPT-4가 소개되면서 더 이상 가볍게 볼 상황이 아닌 것 같다는 느낌이 들었습니다. 이번 포스팅에서는 ChatGPT가 무엇인지 알아보겠습니다. 한빛미디어 박태웅 의장이 다스뵈이다 250회에서 소개했던 내용을 정리하였습니다.

 

 


거대 인공지능 챗 GPT (ChatGPT)

음성인식 기반 인공지능을 이용한 커피 주문 서비스, 카페로봇 엘리, 로봇 바리스타 등등. 커피 애호가에도 이젠 인공지능이 낯설지 않습니다. 그런데 2023년을 달구고 있는 챗 GPT는 이런 인공지능을 귀엽게 만듭니다. 챗 GPT는 거대 인공지능입니다.

ChatGPT는 현재 전 세계적으로 선풍적인 인기를 누리고 있습니다. 사용자가 1억 5천만명을 훌쩍 넘어섰고, 계속해서 빠르게 늘고 있습니다. 심지어 1백만 명 이상이 1개월에 20달러씩 내는 유료 버전의 ChatGPT를 쓰고 있습니다. 덕분에 오픈 AI (OpenAI)는 월 2천만 달러를 벌어들이고 있습니다. 그런데, 이렇게 벌어들인다 하더라도, ChatGPT를 만드는데 들어간 어마어마한 비용인 3.7조원에는 턱없이 모자란 수준입니다.


거대 인공지능이 등장한 배경 : GPU의 발전

거대 인공지능은 컴퓨팅 능력, 그것도 GPU(Graphics Processing Unit)가 발전해 오고 있는것과 직접적인 관련이 있습니다. 딥러닝(Deep Learning) 학습의 효율은 GPU 성능에 좌우되기 때문입니다.

엔비디아 GPU인 V100은 125 테라플롭스 연산 능력을 가지고 있습니다. 테라플롭스(tera flops) 는 슈퍼컴퓨터의 성능을 따질 때 흔히 사용하는데, 1 테라는 10의 12승을 의미합니다. 10의 12승은 1조에 해당하니까, 1테라플롭스는 1초에 1조번의 연산을 수행 한다는 것입니다. 그러니까 125 테라 플롭스는 1초에 125조 번 실수 연산을 한다는 의미입니다.

참고로, 애플 M1 칩의 GPU는 2.6 테라플롭스 부동소수점 연산이 가능합니다. 125 테라 플롭스는 우리가 접하는 컴퓨터와 차원을 달리합니다. 엔비디아가 최근 개발한 GPU인 A100 텐서 코어 GPU의 경우, 312 테라플롭스 연산 능력을 가지고 있습니다. A100 텐서코어 GPU는 딥러닝 학습과 추론에서 V100 대비 연산 능력이 20배나 향상된 것입니다. GPU 기술은 계속 발전하고 있고, 더 거대한 인공지능을 만들 수 있는 환경이 만들어지고 있습니다.

이러한 하드웨어의 발전이 거대 인공지능인 챗 GPT가 탄생하게 된 배경이 되었습니다.


ChatGPT란 무엇인가?

ChatGPT는 Chat과 G, P, T로 구성된 합성어입니다. 각각이 의미하는 바를 하나씩 알아보겠습니다.

(1) Chat (챗) : 대화형

챗(chat)은 대화를 나누다라는 뜻을 가진 영어 단어입니다. OpenAI의 ChatGPT에 접속하면, 화면의 맨 아래에 대화창이 하나 보입니다.

챗 GPT의 사용은 이 대화창에 질문을 입력하면서부터 시작됩니다. 입력을 대화하듯 자연스럽게 한다는 것이 챗을 의미합니다. 그런데, 실제로 사람과 대화하는 듯한 느낌을 받는 이유는 좀 전에 질문했던 내용과 챗 GPT가 대답했던 내용을 기억하고 있기 때문입니다. 사람이 대화를 할 때도 좀 전에 물어봤던 것을 ‘그것’과 같은 대명사로 쓰는데, 이는 단기 기억을 갖고 있기 때문입니다. 대화하려면 단기 기억을 갖고 있어야 하는데, ChatGPT는 채팅 한 내용을 기억하고 있습니다.

다음과 같이 Chat이라는 이름을 붙인 이유를 두 가지로 요약할 수 있습니다.
1) 입력을 대화하듯 자연스럽게 한다.
2) 대화하려면 단기 기억을 가지고 있어야 하는데, ChatGPT는 채팅 창의 내용을 기억한다.

(2) G : generative, 생성하는, 만드는

인공 신경망 기반의 딥러링으로는 그림을 학습시키면 그림을 그리고, 동영상을 학습시키면 동영상을 만들고, 글을 학습시키면 글을 쓰는 인공지능이 됩니다. 그리고, 만들고, 쓰서 뭔가 새로운 것을 만들어내는 인공지능을 생성 인공지능이라고 합니다. ChatGPT는 글을 만들어내는 인공지능에 속합니다.

(3) P : pre-trained, 사전 학습한

ChatGPT는 사전에 무엇을 학습했을까요? 바로 거대한 언어 모델을 학습하였습니다. 거대언어모델을 LLM(large language model)라고 줄여 씁니다.

학습을 시키기 위해 3000억 개의 단어와 5조개의 문서를 입력하였습니다. 여기서, 문서 5조개는 인간이 만든 거의 모든 문서에 해당합니다. ChatGPT는 인간이 만든 거의 모든 문서를 다 보고 만들어진 인공지능입니다.

ChatGPT는 언어를 학습했을 뿐인데, 어떤 전문분야에 대한 내용이라도 몇 개의 단어만 주면 마치 잘 알고 있는 것처럼 그럴듯한 답을 냅니다.

(4) T : Transformer, 가장 인기 있는 진보된 딥러닝 모델

구글이 개발한 트랜스포커 모델은 이 단어의 다음 단어가 뭐가 될지를 확률로 예측합니다. 5조개의 문서에서 학습한 만큼 트랜스포머 모델은 충분히 제대로 작동합니다. 여기에는 구글이 개발한 또 다른 모델인 attention이라는 모델이 녹아있습니다. attention은 문장에서 핵심단어가 무엇인지를 파악한 후 그 단어를 기억하게 하는 모델입니다. 이것은 마치 사람과 대화하는 듯한 착각이 들 정도로 자연스럽게 대화가 이어지도록 만들어줍니다.

Chat, G, P, T를 종합해보면, 대화형인데, 거대한 모델로 사전 학습을 했고, 뭔가 근사한 말을 출력해준다라고 요약할 수 있습니다.


딥러닝과 인공지능 : 고양이 사진을 가려내시오

(1) 전문가 시스템으로 만든 인공지능

최초의 인공지능은 전문가 시스템이라는 방식을 사용하였습니다. 고양이 사진을 가려내는 인공지능을 만들 때 사용한 방식은 인간이 직접 골라낸 고양이의 모든 특징을 입력하는 것이었습니다.

이렇게 전문가 시스템에 의해 만들어진 인공지능의 성능은 어땠을까요? 고양이 사진을 가려내는 인공지능의 성능을 점수로 매겼을 때, 초기에는 점수가 점점 올라가다가 데이터가 일정 규모 이상 들어가면, 점수가 정체되거나 오히려 떨어지는 결과가 나왔습니다. 고양이가 정면으로 보이고, 크게 보이는 정직한 고양이 그림이 아니라, 반쯤 가려져서 일부분만 보인다거나 하면 기존에 입력한 특징과 달랐기 때문입니다. 인공지능을 만들 때, 그 많은 예외를 모두 입력할 수 없었다는 게 가장 큰 이유입니다.

(2) 딥러닝 (Deep learning, deep structured learning)

좀 전에 엔비디아의 GPU인 V100에 대해 말씀드렸는데요. 이처럼 하드웨어가 발달하고, 딥러닝이란 모델이 발전하면서 인공지능에 새로운 장이 열렸습니다. 딥마인드(DeepMind)가 만든 알파고에 탑재된 인공지능이 인공 신경망(artificial neural network, ANN)으로 만들어진 것입니다. ChatGPT는 인공 신경망 계열의 인공지능입니다. 인공 신경망 계열에 새로운 이름을 붙였는데, 그게 바로 딥러닝입니다.

다시 고양이 사진을 골라내는 문제로 돌아와보면,
인공 신경망 방식 이전에는 인공지능을 만들기 위해 사람이 고양이의 특징을 찾아낸 후에, 그 특징을 직접 입력했었습니다. 그런데, 인공 신경망 방식에서는 고양이의 특징을 찾는 것까지 인공 신경망에 맡긴 셈입니다.

고양이 사진을 10만장 정도 주고, 이 10만장에서 볼 수 있는 특징과 차이점을 인공 신경망이 찾아내도록 한 것입니다. 이 특징과 차이점을 찾아내게 만든 것을 매개변수(parameter)라고 부릅니다. 매개변수의 개수가 1억개, 10억개 등등으로 늘어날 수록 고양이 사진을 잘 골라낸다는 사실을 발견한 것입니다.

인공신경망에서 매개변수는 가중치입니다. 각 매개 변수라는 가중치를 동시에 바꿔가며, 고양이를 가장 잘 구분할 수 있도록 하는 최적의 가중치 세트를 찾아내는 과정이 바로 ‘학습하는 과정’인 것입니다.

잠재된 패턴을 잘 찾아 준다는 것이 인공 신경망의 장점입니다. 고양이 사진을 잘 골라낸다는 것은 좋은데, 왜 그런 결과가 나온 것인지는 모릅니다. 다만, 그 많은 수의 가중치 세트가 있을 뿐입니다.

5살 아이가 개와 고양이를 구분하는데, 어떤 방식으로 구분하는지는 모릅니다. 척 보면 아는데, 말로 설명하진 못합니다. 이것과 비슷하게 인공 신경망 모델도 고양이를 잘 찾아내지만, 어떤 메커니즘으로 그게 되는지는 모릅니다. 그래서 과학자들 중 이런 종류의 인공지능 모델에 대해 과학적 발견에 가깝다는 말을 하는 사람들도 있습니다. 발명이 아니라 말입니다.

딥러닝이라고도 하는 이 방식이 지금까지 개발된 인공지능 모델 중 가장 앞서 있는 모델입니다.


마치며 …

ChatGPT 열풍이 놀랍습니다. 이런 흐름에 발맞추기 위해 이번 포스팅에서는 ChatGPT가 무엇인지를 알아보았습니다. 한빛미디어 박태웅 의장의 친절한 설명이 인공 신경망 기반의 ChatGPT를 이해하는데 도움이 되었길 바랍니다.

 

 

함께 참고하면 좋은 글
1. 자연어 처리 신경망 모델 ChatGPT를 만든 딥러닝 방법
2. 머신러닝, 인공지능. 커피 마시며 가볍게 읽는
3. 커피와 인공지능
4. 중학수학 함수와 최고의 커피 한잔
5. 반자동 에스프레소 머신 커피 추출시간을 결정하는 변수
6. 애플 M1 칩, 그리고 컴퓨터 기본 구조
7. 파이썬 데이터 분석! 데이터 분석을 위한 코딩언어 파이썬
8. 알아두면 좋을 컴퓨터 작동원리. 폰 노이만 아키텍처


참고자료

[1] 박태웅(2023.2), [김어준의 다스뵈이다] 250회 수익창출 당했다, ChatGPT 1부, 역풍과 육포

Leave a Comment