구글 I/O 2024. Gemini, 3분 요약 정리

구글 I/O 2024. Gemini, 3분 요약 정리

구글이 2024년 5월 14일에 구글 I/O 2024 행사를 열었습니다. OpenAI와 더룰어 인공지능이 점차 대중화되고 보편화되고 있다는 것을 보여줬습니다. VEO라는 영상생성모델, 인공지능을 활용하는 구글 검색엔진, 인공지능 비서로 탄생 중인 제미나이(Gemini), 그리고 구글이 개발한 프로세서(TPU)까지 기술발전 상황을 확인해보시기 바랍니다.

 

 


글의 순서

영상 생성 모델 VEO 발표
복잡하고 긴 문장을 처리할 수 있는 구글 검색엔진
인공지능이 접목될 안드로이드
공부도우미 Circle the Search
Gemini와 음성 대화
구글 I/O의 핵심, 인공지능 비서 Gemini
고성능 프로세서 트릴리움 TPU (Trillium TPU)


영상 생성 모델 VEO 발표

구글 I/O 2024에서 구글은 영상 생성 모델인 VEO를 발표했습니다. VEO는 텍스트, 이미지, 그리고 비디오 프롬프트를 이용해 고화질 1080p 영상을 만들어주는 모델입니다. 우리가 만들고 싶은 영상을 설명하면 다양한 시각적, 영화적 스타일로 구현해 줍니다.

예를 들어, 풍경을 항공 촬영한 영상이나 타임랩스 같은 장면을 요청할 수 있습니다. 물론 이렇게 만들어진 영상을 고칠 수도 있습니다. 영상을 보고, 이 부분을 이렇게 해줬으면 좋겠어, 저 부분은 저렇게 고쳐줬으면 좋겠어를 프롬프트로 입력하면 점점 더 내가 원했던 그 영상이 되어 갑니다.

VEO의 핵심 기술은 Google 딥마인드(DeepMind)의 생성형 비디오 모델입니다. 이 모델은 입력된 텍스트를 비디오로 출력할 수 있도록 학습되어 있습니다. 사용자는 간단한 텍스트 입력만으로도 원하는 영상을 쉽게 만들 수 있습니다.

VEO는 새로운 실험 도구인 VideoFX에서 사용할 수 있습니다. 아래의 참고자료에 링크 했습니다.

 

 


복잡하고 긴 문장을 처리할 수 있는 구글 검색엔진

구글 검색에서 더 길고 복잡한 질문을 하거나 사진으로 검색하는 등의 방법이 대중화 될 예정입니다. 일단 미국에서부터 서비스가 시작될 예정입니다. 복잡한 문장이나 이미지로 검색 기능은 AI를 이용해서 더 많은 정보를 모으고, 전체 검색결과를 요약해 주기도 합니다.

구글이 발표하면서 예로 든 것을 정리해보겠습니다.
▶검색 : 결혼기념일을 축하하기 위해 달라스에 있는 레스토랑 추천
▶검색결과
– Gemini 모델은 라이브 음악이 있는 레스토랑이나 역사적인 매력을 가진 곳을 제안합니다. 계절을 반영해서 루프탑 테라스가 있는 레스토랑을 추천해줍니다.
– 이런 정보를 한 눈에 볼 수 있도록 정리까지 해줍니다. 인공지능을 활용한 검색내용 정리는 음식점과 레시피 검색부터 우선 시작하고, 영화, 음악, 책, 호텔, 쇼핑 등 다양한 분야로 확장될 예정입니다.


인공지능이 접목될 안드로이드

2024년 내에 아래의 기능들이 안드로이드 스마트폰에 탑재될 예정입니다.

▶ AI 기반 검색 기능을 제공합니다.
▶ Gemini가 안드로이드에서 새로운 AI 비서로 도움을 줄 것입니다.
. ▶ 이런 AI는 온디바이스에서 작동할 것입니다.


공부도우미 Circle the Search

학생들이 점차 휴대폰과 태블릿을 학습에 활용하고 있습니다. 이에 맞춰 구글은 “Circle the Search”라는 공부 도우미를 제공할 예정입니다. 예를 들어, 물리 문제에서 어려운 부분을 동그라미(circle)로 표시하면 이 문제를 해결할 수 있는 단계별 지침을 바로 받을 수 있습니다.


Gemini와 음성 대화

구글의 음성모델도 계속 발전하고 있습니다. 2024년 여름부터는 Gemini와 음성으로 심도있는 대화를 나눌 수 있을 예정입니다. 대화 중에 말을 끊어도 Gemini는 적응해서 대화를 이어갈 수 있습니다. 또한, 카메라를 열어 주변을 보여주면 실시간으로 주변상황을 인식하고 설명해 줄 수도 있습니다. GPT-4o에서 봤던 그 기능이 점차 보편적인 기술로 구현되고 있습니다.


구글 I/O의 핵심, 인공지능 비서 Gemini

안드로이드에 탑재될 인공지능 비서인 Gemini에 대해 더 알아보겠습니다. 멀티모달 기능이 강화될 Gemini는 구글 I/O 2024의 핵심으로 보입니다. Gemini는 상황을 인지하여 우리가 무엇을 하려고 하는지 미리 파악하고 더 유용한 것들을 제안합니다.

Gemini는 PDF 파일을 분석해 특정 질문에 대해 답해줍니다. 답변뿐만 아니라 PDF 파일 내에 관련되는 부분을 바로 보여줍니다. 전체 PDF를 읽을 필요가 없을뿐만 아니라 확실한 정보라는 확인하고 안심할 수 있습니다.

갤럭시 S24에서 보았듯 Android는 AI 모델을 포함한 첫 모바일 운영체제입니다. 데이터 센터에 있는 Gemini 기능이 스마트폰에 탑재된 것입니다. Gemini Nano 모델이 탑재된 것이라 데이터 센터에서 받아오는 것보다는 제한된 정보이겠지만, 속도가 빠르고 개인 정보를 보호할 수 있다는 것이 큰 장점입니다. 2024년 말에 Pixel에서 시작할 예정인데, 텍스트 입력뿐만 아니라 시각, 소리, 음성 언어를 이해할 수 있을 것입니다.


고성능 프로세서 트릴리움 TPU (Trillium TPU)

구글 I/O 2024에서 6세대 TPU인 Trillium을 발표하였습니다. TPU는 Tensor Processing Unit의 줄임말입니다. TPU는 구글이 개발한 프로세서로, 주로 인공지능(AI)과 머신러닝 작업을 효율적으로 처리하기 위해 설계된 것입니다. 더 높은 성능과 에너지 효율성 개선을 목적으로 설계된 것입니다. TPU는 딥러닝 모델의 훈련과 추론 작업에 사용되며, 특히 텐서플로(TensorFlow) 같은 AI 프레임워크와 잘 호환성되도록 최적화되어 있습니다.

6세대 TPU인 Trillium은 이전 세대보다 4.7배 더 높은 계산 성능을 제공합니다. Trillium은 2024년 말에 구글 클라우드 고객에게 제공될 예정입니다.


마치며 …

구글이 2024년 5월 14일에 Google I/O 2024 행사를 열었습니다. 이번 포스팅에서는 인공지능이 점차 보편화되고 있는 시대를 구글은 어떻게 준비하고 있는지 Google I/O 2024 행사를 통해 정리해보았습니다.

우리가 원하는 동영상을 좀더 실감나게 만들어줄 것이며, 친구처럼 대화가 가능한 인공지능이 비서처럼 내 옆에 있어 줄 것입니다. 대부분 2024년까지 구현하겠다는 것이 이번 구글 I/O 2024에서 발표한 것입니다. 지켜봐주시기 바랍니다.

 

 

함께 참고하면 좋은 글
GPT-4o 발표, OpenAI의 시장 선점은 계속됩니다.
피규어01, 생성형 인공지능 ChatGPT가 탑재된 휴머노이드 로봇
코넬대가 증명한 ChatGPT 프롬프트 26가지
구글 제미나이(GEMINI), 딥마인드가 만든 인공지능
초 거대 인공지능 ChatGPT
자연어 처리 신경망 모델 ChatGPT를 만든 딥러닝 방법
챗GPT와 같은 자연어 처리 인공지능 한계
ChatGPT 플러그인, 멀티 모달 인공지능
머신러닝, 인공지능. 커피 마시며 가볍게 읽는
커피와 인공지능
머신러닝 수학 : 인공지능은 함수


참고자료

[1] Google, Google Keynote (Google I/O ‘24)
[2] Google(2024.5), Introducing VideoFX, plus new features for ImageFX and MusicFX

Leave a Comment