GPT-4o 발표, OpenAI의 시장 선점은 계속됩니다.

GPT-4o 발표, OpenAI의 시장 선점은 계속됩니다.

OpenAI의 GPT-4o 발표가 있었습니다. 이젠 텍스트뿐만 아니라 오디오, 비디오, 이미지 등으로 물어볼 수 있고, 친구가 말하듯 감정이 담긴 목소리로 대답을 들을 수 있습니다. 인간 목소리에는 감정을 실을 수 있는데, 감정에 따라 달라지는 주파수 변화까지도 GPT4o가 학습한 것입니다. GPT-4o의 핵심 기능들과 성능을 정리해 보았습니다.

 

 


글의 순서

GPT-4o
GPT4o 음성 대화 능력
GPT4o 능력
GPT4o 데스크탑 앱


GPT-4o

OpenAI가 2024년 5월 13일에 GPT-4o를 발표했습니다. 4o의 o는 omni를 나타내는데요. omni는 모든 방식으로, 모든 곳에, 모든 것의 라는 뜻을 가지고 있습니다.

ChatGPT와는 채팅이라는 방식으로 문자를 쳐 넣어서 묻고, 문자로 답을 받았습니다. 그런데, GPT4o가 소개되면서 이제는 문자 외에 그림, 영상, 음성으로도 물을 수 있고, 음성이나 문자로 답을 받을 수 있게 되었습니다. GPT4o는 시각 및 오디오 이해 능력이 뛰어납니다.


GPT-4o 음성 대화 능력

GPT-3.5, GPT-4와는 음성으로 대화가 가능합니다. 그런데, 실시간으로 대화한다는 느낌이 덜했습니다. 바로 지연시간이 있었기 때문인데요. 평균 지연 시간이 GPT-3.5는 2.8초, GPT-4는 5.4초였습니다. GPT-4o는 이 지연시간이 훨씬 짧아졌습니다. 오디오 입력에 최소 0.232 초가 들며, 평균 0.32초로 응답할 수 있습니다. 이 정도 지연시간은 인간과 대화할 때의 응답시간과 비슷한 수준입니다.


GPT-4o 능력

OpenAI 홈페이지에는 GPT-4o의 능력을 소개하고 있는데요. 그 내용을 요약해보았습니다. 반응속도가 인간과 대화할 때의 수준으로 빨라진 것과 더불어, 응답하는 목소리에 감정을 넣을 수도 있습니다. 그래서 더욱 더 인간과 대화하는 것 같습니다.

스마트폰 카메라로 사진이나 동영상을 찍어서 보여주며 실시간 대화가 가능합니다. 영상에서 보이는 외부 사물들과 분위기를 잘 알아챕니다.

카메라로 찍은 영상뿐만아니라 컴퓨터 화면에서 보이는 그림도 이해합니다. 수학문제를 보여주면 과외 선생님처럼 설명해줍니다.

이미지 생성 능력도 뛰어납니다. 사진을 넣어주고 영화 포스터를 만들어 달라고 하면 그럴듯한 포스터가 만들어줍니다. 캐릭터를 만들어주고, 연필로 쓴 것 같은 필기체도 가능합니다. 사진을 캐리커쳐로 만드는 일, 글자 폰트를 생성하는 것, 텍스트를 입력하면 문자를 입체적으로 만들어 주는 것, 로고를 만드는 것, 회의를 녹음해서 올리면 여러 사람들의 음성을 구분해서 회의록을 작성할 수도 있습니다.

강의 영상을 올리면 요약해서 텍스트로 변환해줍니다.


GPT-4o 데스크탑 앱

기존에는 스마트폰 앱만 있었는데, 데스크탑 앱도 나왔습니다. 맥부터 가능한데, 점차 윈도우 PC용 앱 등으로 확대될 것입니다.
앱을 실행시키면 ChatGPT에서 봤던 그 화면이 나옵니다. 질문을 입력하는 칸 오른쪽 옆에 헤드폰 표시가 있습니다. 이 헤드폰 표시를 누르면 대화모드로 들어갑니다. 스마트폰 앱에서 사용하던 그 형태입니다. 질문 입력란 왼쪽에는 클립 아이콘이 있는데, 이걸 누르면 Upload File, Upload Photo, Take Screen shot, Take Photo라는 4가지 메뉴가 뜹니다. Take Photo를 누르면 컴퓨터의 카메라가 활성화됩니다.

사진을 찍어 올리면 인물의 표정과 기분상태를 파악합니다. 사진이나 화면에 보이는 대로 이미지를 인식합니다. 그래프를 인식하고 설명해 줍니다. 파이썬 코드에 대한 화면에서 코드를 인식하고, 쉽게 설명해줍니다. 이미지 인식 기술 수준이 상당히 향상되었습니다.


마치며 …

OpenAI가 강력한 성능의 GPT-4o를 발표하였습니다. 4o의 o는 omin를 의미하는데요. 우리말로는 ‘모든 방식으로’, ‘모든 곳에’, ‘모든 것’이라는 뜻을 가지고 있습니다. ChatGPT 화면의 맨 아래부분에 문자로 쳐서 질문하고, 문자로 답을 얻었는데, 이제는 텍스트뿐만 아니라 음성, 그림, 동영상으로 물을 수 있고 친구가 대답해주듯 친절한 설명을 들을 수 있습니다.응답시간도 실시간에 가까울 정도로 빨라졌습니다. 온디바이스 AI가 아니더라도 응답속도면에서는 불편함을 못느낄 정도입니다.

인공지능이 점점 우리의 일상에 스며들고 있습니다. 곧 음성으로 묻고, 그림으로, 영상으로 물어보는 시대가 보편화될 것입니다. GPT4o! 일단 시도해보실 것을 추천합니다.

 

 

함께 참고하면 좋은 글
피규어01, 생성형 인공지능 ChatGPT가 탑재된 휴머노이드 로봇
코넬대가 증명한 ChatGPT 프롬프트 26가지
구글 제미나이(GEMINI), 딥마인드가 만든 인공지능
초 거대 인공지능 ChatGPT
자연어 처리 신경망 모델 ChatGPT를 만든 딥러닝 방법
챗GPT와 같은 자연어 처리 인공지능 한계
ChatGPT 플러그인, 멀티 모달 인공지능
머신러닝, 인공지능. 커피 마시며 가볍게 읽는
커피와 인공지능
머신러닝 수학 : 인공지능은 함수


참고자료

openai(2024.5), Hello GPT-4o

Leave a Comment