(186) 동영상 생성 AI '소라'
지난 2월 챗GPT를 개발한 미국 기업 오픈AI가 동영상 생성 인공지능(AI) ‘소라(Sora)’를 공개해 관심이 뜨겁다. 소라는 프롬프트를 입력하면 동영상을 생성하는 AI로, 현재는 제한된 수의 창작자만 사용할 수 있도록 허용하고 있다.
지난 2월 챗GPT를 개발한 미국 기업 오픈AI가 동영상 생성 인공지능(AI) 소라(Sora)를 공개해 관심이 뜨겁다. 소라는 프롬프트를 입력하면 동영상을 생성하는 AI로, 현재는 제한된 수의 창작자만 사용할 수 있도록 허용하고 있다. 챗GPT를 필두로 글 쓰는 AI, 이미지를 제작하는 AI, 번역하는 AI, 코딩하는 AI 등 고유한 능력을 지닌 AI가 속속 등장했지만, 유독 소라의 등장에 주목하는 이유는 무엇일까.소라 이전에도 영상을 만들어주는 AI는 있었다. 하지만 이전의 AI들이 만든 영상은 총길이가 20초를 넘지 못했고 품질도 떨어졌다. 반면 오픈AI의 발표에 따르면 소라는 최대 1분 길이의 고화질 영상을 신속하게 만들 수 있다.
더 놀라운 것은 소라가 생성한 영상의 내용이다. 소라가 만든 영상은 굉장히 생생하고 정교해 미국의 기술 전문 매체 테크노피디아는 소라가 세상에 나왔다는 소식을 전하며 ‘할리우드의 종말’이라는 말을 기사에 실었다. 영상에는 강아지 털에 하얀 눈이 덮여 있는 모습이나 수많은 사람이 오고 가는 거리에서 한 여자가 걸어가는 모습, 멸종된 털매머드가 털을 휘날리며 눈 덮인 들판을 밟으며 다가오는 모습 등이 담겼는데, 그야말로 실제보다 더 실제 같았다. 오픈AI의 발표에 따르면 이 모든 영상은 오직 텍스트 몇 문장만으로 탄생했다.
오픈 AI는 소라 공개 이후 반나절 뒤 기술 보고서를 공개했다. 보고서에 적힌 바에 따르면 소라의 핵심 기술은 ‘시공간 패치(spacetime patch)’에 있었다. 기본적으로 소라는 아무런 의미가 없는 노이즈처럼 보이는 비디오로 시작해 노이즈를 점차 제거해가는 방식으로 한 편의 영상을 제작한다. 이때 챗GPT와 마찬가지로 트랜스포머 아키텍처를 사용한다. 트랜스포머는 2017년 구글이 발표한 논문에서 처음 나온 모델로 ‘어텐션(Attention)’을 기반으로 데이터를 처리한다. 어텐션은 순차적으로 계산하는 기존 인공지능 모델과 달리 각 요소의 상관관계를 구해 병렬적으로 처리하게 해준다.
이때 챗GPT 같은 텍스트 생성 모델은 상관관계를 분석하는 요소를 ‘토큰(Token)’이라는 최소 단위로 나눠 텍스트를 처리한다. 반면 소라는 시각적 데이터를 ‘패치(Patch)’라는 작은 단위로 나누어 작업을 수행한다. 원시 영상을 그대로 나누는 것이 아닌, 펼쳐져 있는 시공간을 ‘잠재 공간’이라는 저차원 공간으로 압축해 패치로 분해한다. 그리고 시간적·공간적으로 압축된 잠재 공간 내에서 학습시켜 영상을 제작하기 위한 시공간적 맥락을 배운다. 여기서 주목할 점은 소라는 학습할 때 영상의 화질을 조정하거나 일부를 편집하지 않고 원시 영상을 그대로 사용했다는 것이다. 덕분에 소라는 놀라울 정도로 정확하게 실제 세계를 모델링한다. 영상 속 객체들은 3차원 공간에서 실제와 거의 유사하게 움직이고 상호작용한다.
소라가 만들어낸 정교한 영상은 전 세계에서 숱한 우려를 낳고 있다. 영상 업계에 종사하는 전문가의 일자리가 사라질 것이라는 우려부터 더 이상 보이는 것을 믿지 못하는 사회 전체의 불신과 관련된 논의까지 전문가들은 소라가 세상에 미칠 영향에 대해 굉장히 경계하고 있다.
이에 대한 오픈AI의 해답은 아직 ‘워터마크’뿐이다. 소라가 생성한 모든 결과물에 AI가 만들었다는 증거로 워터마크를 삽입하겠다고 밝혔지만, 동시에 이 워터마크가 인위적으로 지워질 수 있다는 점도 인정했다.
오픈AI는 지난 3월 올해 하반기쯤에는 소라를 일반인도 사용할 수 있도록 개방한다고 발표했다. 동시에 더 사실적인 동영상을 만들기 위해 음향까지 통합할 계획도 밝혔다. 즉 실제와 가짜 영상을 더 구분해지기 어려워질 것이다. 과연 소라는 우리의 세상을 어떻게 바꿔놓을까. 한 가지 확실한 것은 “백문이 불여일견”이라는 말이 더 이상 통하지 않는 AI 시대에는 진실과 거짓을 밝혀내는 인간의 역할이 더 중요해질 것이다.
√ 기억해주세요 오픈AI는 지난 3월 올해 하반기쯤에는 소라를 일반인도 사용할 수 있도록 개방한다고 발표했다. 동시에 더 사실적인 동영상을 만들기 위해 음향까지 통합할 계획도 밝혔다. 즉 실제와 가짜 영상을 더 구분하기 어려워지게 될 것이다. 과연 소라는 우리의 세상을 어떻게 바꿔놓을까. 한 가지 확실한 것은 “백문이 불여일견”이라는 말이 더 이상 통하지 않는 AI 시대에는 진실과 거짓을 밝혀내는 인간의 역할이 더 중요해질 것이다.
박영경 과학칼럼니스트·前 동아사이언스 기자