딥러닝 - 만약 ChatGPT가 영상으로 세상을 이해하게 된다면?

글 수 203

만약 ChatGPT가 영상으로 세상을 이해하게 된다면?

조회 수 257 추천 수 0 2024.02.16 16:39:49

깊은바다 *.32.218.234 http://aidev.co.kr/14420

Sora는 OpenAI가 공개한 Text2Video 모델입니다. 다른 모델들은 보통 5초 정도의 짧은 영상인데 반해 Sora는 1분까지 긴 영상이 가능합니다. 또한 스틸 이미지에서 살짝만 움직이는게 아니라 카메라 뷰가 완전히 이동하는 등 역동적인 표현을 보여줍니다. 영상의 품질 역시 실사에 가까울 정도입니다. AI로만 영화를 만드는게 정말 금방일 것 같습니다.

[ 더 많은 영상보기 ]

https://openai.com/sora

Sora 모델 구조

테크니컬 리포트에 모델의 대한 설명이 간단히 나와 있습니다. 가장 큰 특징은 Patch입니다. GPT의 기본 단위는 Token입니다. 입력 문장을 Token으로 분리하고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 Token의 벡터를 예측하고, 이를 다시 문자로 최종 표시합니다.

Sora 역시 이런 LLM의 특징을 그대로 가져왔습니다. 영상의 각 프레임 이미지를 작은 Patch로 쪼개고 이를 벡터 임베딩을 변환합니다. 그리고 다음에 올 프레임을 Patch 단위로 예측하여 전체 영상을 생성합니다. 이렇게 하면 긴 영상의 시간적, 공간적인 정보를 계속적으로 유지할 수 있습니다.

Sora는 Diffusion Transformer입니다. Token이 아닌 Patch를 기본 단위로 하는 Transformer모델이며, 각 Patch는 Diffusion 방식으로 고해상도 이미지로 생성됩니다. 처음에는 노이즈로 시작한 영상이 점점 단계적으로 품질이 높아집니다.

세상을 이해하는 World Models

OpenAI는 Sora가 단순한 영상 생성 모델이 아니라고 말합니다. 그보다는 현실의 물리적인 세계를 시뮬레이션 한다고 강조합니다. 저도 이 부분이 가장 중요하다고 느껴졌습니다. GPT는 텍스트를 통해 세상을 이해합니다. 그래서 이해력에 한계가 있을 수 밖에 없습니다. 우리는 뭔가를 생각할 때 글자가 아니라 이미지나 영상을 머리속으로 떠올립니다. AI도 다음 단계로 나아갈려면 이런 방법이 반드시 필요합니다.

2018년 구글 브레인의 David Ha는 World Models를 발표했습니다. 세상이 어떻게 돌아가는지를 예측하는 모델입니다. 자동차가 도로를 따라 움직이게 하는 예시를 보여줍니다. 예전에는 현재 이미지가 모델에 입력되면 왼쪽이나 오른쪽으로 이동하는 액션을 출력했습니다. World Models는 여기서 중간 단계를 더 추가합니다. 현재 이미지가 주어지면 다음 다음에 발생할 일을 예측하여 새로운 이미지를 생성합니다. 미래를 상상하고 거기에 맞게 행동을 결정하는 것입니다.

[ World Models 설명 ]

http://aidev.co.kr/deeplearning/4304

World Models을 가진 새로운 AI의 등장

사람의 뇌 역시 하나의 예측 기계입니다. 우리는 항상 의식적 또는 무의식적으로 다음에 일어날 일을 예측합니다. 만약 물이 든 컵을 들어올리려고 손을 뻗었다면 어떨까요. 컵을 쥐었을 때의 감촉, 컵 재질의 매끌거림, 컵속의 물이 살짝 일렁이며 움직일 것이라 예상을 합니다. 만약 컵이 갑자기 깨진다거나 컵이 눈앞에서 사라지는 등 예상과 다른 상황이 발생한다면 매우 놀랄 것입니다.

앞으로 AI 역시 사람처럼 이런 월드 모델을 가질 것입니다. 이것이 바로 상식과 추론 능력입니다. GPT-5는 Sora처럼 영상 기반의 월드 모델이 아닐까 조심스럽게 예상해봅니다.

이 게시물을

엮인글 :

List of Articles

제목	글쓴이	날짜	조회 수
OpenAI의 Sora로 만든 단편영화	깊은바다	2024-03-26	177
만약 ChatGPT가 영상으로 세상을 이해하게 된다면?	깊은바다	2024-02-16	257
인도의 생성AI 영화 - Maharaja in Denims	깊은바다	2024-01-16	197
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez	깊은바다	2024-01-04	172
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 [2]	깊은바다	2023-12-24	976
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치	깊은바다	2023-11-29	149
AI의 미래 - Coatue가 주목한 AI 산업 트렌드	깊은바다	2023-11-28	203
가구 카탈로그를 만들어주는 생성AI - 뚝딱 AI 스튜디오	깊은바다	2023-09-22	363
내가 원하는 사진을 만드는 생성AI SNS - 트윅(Tweak)	깊은바다	2023-09-04	466
마우스로 끌어서 사진을 수정하는 딥러닝 - DragGAN	깊은바다	2023-05-21	446
생성 AI의 시대, 진짜 메타버스가 온다	깊은바다	2023-04-04	374
ChatGPT와 Stable Diffusion에 대한 정지훈 교수님 강의	깊은바다	2023-04-03	423
미드저니로 생성한 90년대 중국 사진들 - 콘텐츠 산업의 혁신	깊은바다	2023-03-30	767
어도비의 생성AI 프로그램 - Firefly	깊은바다	2023-03-23	348
초거대AI를 API로 썼을 때 경쟁업체와 차별화를 하려면	깊은바다	2023-03-20	300

쓰기

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지