나의 비교는 수백여의 영상을 출력한 다음 여러 가지 성능에 대해 수치화를 하여 비교한 것이 아니라 "나의 주관적"인 경험을 바탕으로 한 비교임을 먼저 말해두는 바이다.
OpenAI의 "SORA"를 발표하였지만 사용자들이 실제 언제 사용할 수 있을지는 현재 "미지수"이다.
일반 사용자들이 사용하는 경우 추론 컴퓨터의 성능이 이를 받쳐주지 못한다면 결국 B2B 시장으로만 출시될 수밖에 없을 것이다. SORA의 출시일이 공표가 되지 않고 있는 지금 일반 사용자인 내가 SORA를 사용해 보지 못할 것이라는 불안감이 엄습하고 있다.
이에 SORA를 대체할 영상 생성 AI가 있는지 찾아보았고, 그나마 일반 사용자들이 사용할 수 있는 두가지 AI를 발견할 수 있었다.
하나는 영상 생성 AI로 AI 초기부터 밀고 있었던 Runway Research의 Gen 모델이고,
또 다른 하나는 Lumalabs의 Luma ai이다.
나는 이 두 가지 모델을 사용해 보았고, 현재 사용할만한 영상 AI는 무엇인지 알려드릴까 한다.
1. Runway Research 사의 Gen-2 모델
A multimodal AI system that can generate novel videos with text, images or video clips.
이 모델은 텍스트, 이미지 또는 비디오 클립을 입력으로 받아 새로운 비디오를 생성할 수 있는 다중 모달 AI 시스템이다.
주요 기능으로는
- 텍스트 프롬프트만으로 동영상 생성 가능
- 이미지나 비디오 클립을 입력으로 동영상 생성 가능
- 텍스트와 이미지를 조합하여 동영상 생성 가능
- 동영상의 품질, 길이, 스타일 등 다양한 파라미터 조정 가능
등이 있다.
Gen-2는 이전 모델인 Gen-1보다 발전된 다중 모달 구조를 가지고 있으며, 정밀하고 사실적인 동영상 생성이 가능하다. 클라우드 기반 온라인 플랫폼으로 별도 소프트웨어 설치 없이 웹에서 바로 사용할 수 있다. 또한 무료 과금 정책을 운영하여 초기 사용자도 쉽게 접근할 수 있다.
2. Lumalabs 사의 Dream-machine 모델
LumaLabs AI의 Dream Machine은 텍스트와 이미지에서 고품질의 현실적인 비디오를 생성하는 최신 AI 모델이다.
주요 기능으로는
- 사용자가 입력한 프롬프트를 해석하여 주어진 내러티브에 맞는 시각적으로 뛰어난 비디오를 생성하고,
- 정적 이미지와 프롬프트를 입력하면 이를 바탕으로 전체 모션 비디오를 생성할 수 있다.
- 120초 안에 120 프레임의 비디오를 생성하여 사용자가 아이디어를 빠르게 구현할 수 있다.
- 현실적인 움직임과 물리 법칙 구현하여 부드러운 영화 같은 움직임과 촬영 기법을 사용하여 5초 길이의 역동적인 장면을 생성한다.
두 가지 모델을 모두 사용한 결론은 영상 생성 모델은 아직 제대로 사용하기에는 어려움이 있다는 점이고, OpenAI 사의 "SORA"가 출시가 지연되는 이유를 잘 알 수 있다는 것이었다.
아래는 두 개의 모델에서 "하늘에서 떨어지는 오렌지의 영상을 만들어줘"라는 프롬프트로 생성한 영상이다.
<Runway Gen-2 생성 영상>
<Luma Dream Machine 생성 영상>
두 영상을 비교해보면 아래와 같다.
1) 프롬프트를 충실히 생성 : Luma AI 가 뛰어남
2) 생성된 품질 : Luma AI 가 뛰어남
3) 생성된 객체의 변형 : Luma AI가 생성된 객체의 안정성이 좀 더 뛰어났으나, 둘 다 쓸 수 있을 정도의 품질로 생성되지 않음.
결론은 Runway의 영상 생성 모델은 아직도 갈 길이 멀며, 아직은 유료로 사용하기에는 무리가 있어 보인다.
Luma AI는 유료로 사용하고 싶은 분들은 사용해도 무방하나 일부 영역에서만 사용 가능한 영상을 생성할 수 있을 뿐이다.
Luma AI로 생성한 영상을 추가로 감상해보자.
프롬프트 : 근무시간에 휴대폰으로 주식을 하고 있는 직장인의 모습을 만들어줘. 휴대폰을 확대하면서 휴대폰 화면에 주식 그래프가 보여지도록 만들어줘.
결과 : 잘 만들어줬으나 "휴대폰 화면에 주식 그래프가 보여지도록 만들어줘." 부분은 생성하지 못했다.
프롬프트 : 할아버지와 아이가 그림을 그리고 있는데 할아버지가 열심히 그림을 그리고 있고, 이를 지켜보는 아이가 그림을 따라그리고 있는 모습을 만들어줘.
결과 : 주어진 이미지를 보존하면서 영상 생성은 뛰어났으나, 할아버지가 그림을 그리는 손의 모습을 재현하지 못했고, 아이의 안경이 사라지는 아쉬움이 있었다.