레플리
글 수 203


K-003.png

 

K-004.png

 

K-005.png

 

 

 

OpenAI의 CLIP은 이미지와 텍스트를 동시에 고려하는 멀티모달 모델입니다. 이를 활용한 다양한 애플리케이션이 등장하고 있는데요. 이번에는 Text2Art란 사이트가 생겼습니다. 말로 설명하면 그림을 그려주는 서비스입니다.

 

DALL-E와 비슷하지만 동작방식에 차이가 있습니다. DALL-E는 GPT-3에 텍스트를 넣어 다음 픽셀을 예측합니다. 그 픽셀은 텍스트와 함께 다시 입력으로 들어갑니다. 이렇게 계속 반복적으로 예측하면서 전체 이미지를 생성합니다.

figure6.png

(참고 - https://jiho-ml.com/weekly-nlp-40/)

 

 

 

반면에 Text2Art는 VQGAN을 사용합니다. GAN은 생성자와 판별자가 서로 경쟁하면서 학습을 합니다. VQGAN-CLIP도 마찬가지입니다. VQGAN이 이미지를 만들면, CLIP이 그 이미지가 해당 텍스트와 일치하는지 검사를 합니다. 이 과정을 여러번 반복하면 점점 텍스트 설명과 유사한 이미지가 생성됩니다.

 

K-001.png

K-002.png

 

 

우리 뇌에서도 아마 같은 의미를 가진 다양한 형태의 개념들은 하나로 처리되지 않을까 생각됩니다. 예를 들어, '강아지'란 단어와 강아지의 이미지, 강아지가 내는 멍멍하는 소리는 서로 연결되어 있습니다. 우리는 강아지를 떠올리면 이런 개념들을 동시에 연상합니다. CLIP은 딥러닝도 같은 방식으로 동작할 수 있다는 것을 보여줬습니다. 앞으로 이를 활용한 재미있는 사례가 계속 나오지 않을까요.

 

 

 

< Text2Art >

https://text2art.com/

 

< 개발과정 >

https://towardsdatascience.com/how-i-built-an-ai-text-to...

 

< Github >

https://github.com/mfrashad/text2art

 

List of Articles
제목 글쓴이 날짜sort 조회 수
OpenAI의 Sora로 만든 단편영화 file 깊은바다 2024-03-26 181
만약 ChatGPT가 영상으로 세상을 이해하게 된다면? file 깊은바다 2024-02-16 258
인도의 생성AI 영화 - Maharaja in Denims 깊은바다 2024-01-16 197
누구나 쉽게 AI 인플루언서를 만드는 시대 - Aitana Lopez file 깊은바다 2024-01-04 172
95생 천재 소녀가 만든 Pika가 빅테크들을 이길 수 있었던 이유 file [2] 깊은바다 2023-12-24 976
Text-to-Video 생성 서비스인 Pika, 5500만달러 투자 유치 file 깊은바다 2023-11-29 149
AI의 미래 - Coatue가 주목한 AI 산업 트렌드 깊은바다 2023-11-28 203
가구 카탈로그를 만들어주는 생성AI - 뚝딱 AI 스튜디오 file 깊은바다 2023-09-22 363
내가 원하는 사진을 만드는 생성AI SNS - 트윅(Tweak) file 깊은바다 2023-09-04 467
마우스로 끌어서 사진을 수정하는 딥러닝 - DragGAN 깊은바다 2023-05-21 446
생성 AI의 시대, 진짜 메타버스가 온다 깊은바다 2023-04-04 374
ChatGPT와 Stable Diffusion에 대한 정지훈 교수님 강의 깊은바다 2023-04-03 423
미드저니로 생성한 90년대 중국 사진들 - 콘텐츠 산업의 혁신 file 깊은바다 2023-03-30 770
어도비의 생성AI 프로그램 - Firefly 깊은바다 2023-03-23 349
초거대AI를 API로 썼을 때 경쟁업체와 차별화를 하려면 깊은바다 2023-03-20 301