ChatGPT 플러그인, 멀티 모달 인공지능

ChatGPT 플러그인, 멀티 모달 인공지능

자연어 처리 모델인 챗GPT를 이해하고, 활용하기 위해 심화학습 중입니다. 지난 포스팅에서는 ChatGPT의 한계점을 알아봤었습니다. 이번 포스팅에서는 챗GPT의 한계를 보완하면서 새로운 능력을 가질 수 있는 멀티모달과 플러그인에 대해 알아보겠습니다. ChatGPT 플러그인으로 할 수 있는 작업에 주목해 주시기 바랍니다.

 

 


글의 순서

인간의 학습 vs. 머신러닝
다형식 대화, 멀티모달(multimodal)
챗 GPT의 멀티모달 능력
멀티모달 성능 강화를 위한 ChatGPT 플러그인 (ChatGPT plugins)
ChatGPT plugins 활용


인간의 학습 vs. 머신러닝

우리가 태어나서 제일 먼저 배우는 것은 언어입니다. 엄마, 아빠로부터 우리가 살아가는데 필요한 말들을 배우고, 세상살이를 조금씩 이해해 갑니다. 말이 통하면 그때부터는 그림도 배우고, 만들기, 계산하는 법, 음악, 체육도 배웁니다. 글을 읽으면서부터 우리의 언어능력은 더 빠르게 발전하고, 배우는 능력과 기술도 더 발전합니다.

자연어 처리 모델인 ChatGPT도 똑같은 학습과정으로 진화하고 있습니다. 챗GPT는 세상에 나와 있던 문자(text)로부터 딥러닝 방법으로 만들어졌는데, 말귀를 알아듣고 있습니다. 챗GPT는 멀티 모달 인공지능이 되어가고 있는 중입니다. 이 과정의 핵심이 바로 ChatGPT 플러그인입니다.

 

 


다형식 대화, 멀티모달(multimodal)

자연어 처리 인공지능인 ChatGPT는 언어에 대한 능력을 보여줬습니다. 그런데, 시각적인 능력, 청각적인 능력에 대해서도 보여줄 필요가 있습니다. 우리의 일상에서는 문자만으로는 부족한 상황이 발생하기 때문입니다.

카카오톡으로 친구와 대화한다고 가정해보겠습니다.
친구는 나에게 어디 있냐고 문자로 물어봤습니다.
나는 친구에게 내 앞에 펼쳐져 있는 강 풍경을 찍어 사진으로 보냈습니다.
친구는 엄지손가락 이모티콘을 보내줬습니다.
나는 친구에게 물 위에 떠 있던 오리가 뛰면서 날아오르는 모습을 찍은 동영상을 보냈습니다.

사진이나 동영상으로 보낼 때 그게 대한 설명을 구지 텍스트로 쓰진 않습니다. 그래도 친구는 나의 상황을 이해하고 그것에 대해 얘기를 이어나갈 수 있습니다. 문자만 보내는 게 아니라 다양한 형식으로 대화할 수 있는 것입니다. 다양한 형식의 대화를 멀티모달(multimodal)이라고 부르기도 합니다. 멀티모달의 핵심은 다양한 형식으로도 자유롭게 대화할 수 있다는 것입니다.


챗 GPT의 멀티모달 능력

ChatGPT는 웃긴 동영상을 보고 유머를 잘 설명할 수 있을까요?
안타깝게도 지금은 안됩니다. 왜냐하면, 지금은 다형식 대화(multimodal)가 ChatGPT에 구현되어 있지 않기 때문입니다.

GPT 모델에는 동영상을 입력으로 줄 수 없습니다. 그런데, 영상을 문자로 바꿔(텍스트화 하여) GPT에 입력한다면 그때 부터는 GPT가 유머를 이해하고 설명할 수도 있을 것입니다.


멀티모달 성능 강화를 위한 ChatGPT 플러그인 (ChatGPT plugins)

플러그인은 컴퓨터 프로그램에서 쓰이는 용어입니다. 아시다시피 C, C++, 파이썬과 같은 언어로 만든 컴퓨터 프로그램을 소프트웨어라고도 부릅니다. 플러그인은 기존에 만들어진 소프트웨어에 새로운 기능을 추가하기 위해 덧붙이는 추가의 소프트웨어입니다.

ChatGPT 플러그인이라고 하면, 챗GPT에서 모자랐던 기능들을 보완하기 위해 덧붙인 추가의 소프트웨어입니다. 위에서 말씀드렸던 멀티모달의 측면에서는 음성, 사진, 동영상과 같은 다양한 형식의 자원을 처리하기 위해서는 이를 담당할 수 있는 소프트웨어가 ChatGPT에 더해져야 합니다.

비단 음성, 사진, 동영상에만 국한되진 않습니다. 지난 포스팅에서 살펴봤던 자연어 처리 인공지능의 한계를 보완할 수 있는 소프트웨어라면 어떤 것이든 가능합니다. 수학과 상징이 약한 ChatGPT에 수학계산용 플러그인을 붙일 수도 있고, 최신의 기사를 직접 검색한 후 그 결과를 정리해주는 플러그인을 덧붙일 수도 있고, 전문적인 번역기를 덧붙일 수도 있습니다.


ChatGPT plugins 활용

챗GPT 플러그인은 ChatGPT 화면에서 정보를 얻는 것 이외에도 다양한 일들을 할 수 있게 해줍니다. 이번 주말에 가족 생일파티를 한다고 가정하고, 챗GPT로 무엇을 할 수 있을지 예상해 보겠습니다.

모임에서 만날 사람 수와 나의 예산을 고려하고 있습니다.
챗GPT에게 근처 식당을 추천해 달라고 합니다. 챗GPT는 구글과 네이버 별점을 기준으로 근처 식당을 선별해서 우선순위대로 정렬해 줍니다. 이때 별점뿐만 아니라 메뉴 가격, 영양성분까지 모두 고려하였습니다. 내가 가장 괜찮은 식당을 결정하면 그 식당 플러그인을 통해 예약을 진행하고, 메뉴를 추천합니다. 메뉴 추천할 때는 각 메뉴의 가격을 더해서 나의 예산 범위 내에 있는지 확인하고, 각 메뉴의 칼로리와 영양성분을 계산해서 1일 영양성분 기준치와 비교해 줍니다.

여기에서 사용된 플러그인은, 식당 별점 정보를 종합해놓은 플러그인, 예약할 식당의 플러그인, 예산 범위 내인지 확인하고, 메뉴를 조합해서 가격대를 맞추고, 영양성분을 계산하기 위한 수학 계산용 플러그인 등입니다.

지금까지는 별점을 찾아서 식당을 정하고, 각 식당의 메뉴 가격을 직접 더하고, 영양성분 기준치와 어떤 차이가 있을지 계산기로 두드려야 했습니다. 그런데 ChatGPT plugins이 있으면, ChatGPT가 이 모든 것을 직접 알아서 해줍니다. 내가 원하는 바를 챗GPT에 문자로 쳤을 뿐인데, ChatGPT는 그 내용을 다 알아듣고 마치 비서처럼 다 해주는 세상이 열린 것입니다.


마치며 …

자연어 처리 모델인 챗GPT를 이해하고, 활용하기 위해 심화학습 중입니다. 지난 포스팅까지는 ChatGPT가 무엇인지, 어떤 딥러닝 방법으로 학습했는지, 한계점과 주의사항까지 살펴봤었습니다.

이번 포스팅에서 자연어 처리 인공지능인 ChatGPT의 한계점을 보완하고 새로운 능력을 부여해 줄 멀티모달과 플러그인에 대해 알아보았습니다. 자연어 처리 모델인 ChatGPT는 인간이 배우는 과정과 똑같은 학습과정을 통해 배우고 있습니다. 아기가 맨 처음 말을 배우고, 미술, 음악, 체육, 수학을 배워왔듯 챗GPT도 이 과정을 그대로 따라가는 것처럼 보입니다. ChatGPT 말귀를 알아듣고 있습니다. 챗GPT는 멀티 모달 인공지능이 되어가고 있는 중이며, 이 과정의 핵심이 바로 ChatGPT 플러그인이라고 할 수 있습니다. ChatGPT 플러그인으로 할 수 있는 작업은 우리가 상상하는 만큼 다양해질 것입니다.

 

 

함께 참고하면 좋은 글
1. 초 거대 인공지능 ChatGPT
2. 자연어 처리 신경망 모델 ChatGPT를 만든 딥러닝 방법
3. 챗GPT와 같은 자연어 처리 인공지능 한계
4. 머신러닝, 인공지능. 커피 마시며 가볍게 읽는
5. 커피와 인공지능
6. 중학수학 함수와 최고의 커피 한잔
7. 반자동 에스프레소 머신 커피 추출시간을 결정하는 변수
8. 파이썬 데이터 분석! 데이터 분석을 위한 코딩언어 파이썬


참고자료

[1] 서울대학교 Seoul National University(2023.3), [샤로잡다] 챗GPT는 어떻게 내 질문에 대답할까? 탄생기부터 작동원리까지 | 김건희 교수
[2] OpenAI, ChatGPT plugins

Leave a Comment