ChatGPT를 개발한 OpenAI는 2024년 2월 15일, 텍스트 입력만으로 고품질 영상을 제작할 수 있는 기술인 SORA를 공개했습니다. 현재는 응용기술과 샘플 영상만 공개됐을 뿐 아직 일반인들에게는 공개되지 않고 있다. 하지만 공개된 지 일주일도 채 되지 않은 상황에서 사람들은 변화하는 영상 산업 생태계에 대한 우려와 실감나는 영상에 대한 놀라움과 우려가 뒤섞인 마음으로 소라를 바라보고 있는 것 같다. 그렇다면 어느 정도까지 현실적인데, 이 문제도 그렇습니까? 효과가 있었나요? 사람들을 가장 놀라게 한 영상은 바로 이 영상입니다.

출처 : OpenAI 얼핏 보면 지하철 사진은 누가 찍은 걸까요? 실제와 거의 흡사한 영상이지만 실제로는 소라가 100% 직접 제작한 AI 영상입니다. 더욱 놀라운 점은 해당 영상이 ‘도쿄 외곽을 달리는 열차의 창에 비친 풍경’이라는 문구만 입력하면 만들어진 영상이라는 점이다. 오늘은 Open AI의 신기술인 소라(Sora)의 도입 및 적용 기술, 소라의 현황과 가격, 그리고 일반인들에 대해 알아보겠습니다. 일반에 공개할 수 없는 이유와 업계에 미치는 영향은 아래 기사를 참고하시기 바랍니다. 소라AI가 놀라운 이유와 현황, 가격 기대감. 소라의 의미.

소라(Sora)는 일본어로 하늘/빈을 의미합니다. OpenAI는 이름이 ‘하늘로 솟아오른다’는 뜻이며 무한하고 창의적인 잠재력에 대한 생각을 상징한다고 밝혔습니다. 관련 기술을 보유한 일본 기업과의 협업으로 지어진 이름인데, 발음하기 쉽고 좋은 의미가 있어서 선택했다는 이야기도 있다. 소라의 주요 특징 세 가지를 적어보았습니다. 기타 자세한 기능은 아래 기술 부분에서 자세히 설명하겠습니다.1. ChatGPT의 LLM(Large Language Model) 기반 기능은 다른 AI 영상 제작 기술과 가장 차별화되는 기능이라고 할 수 있습니다. 엄청난 양의 데이터를 학습한 ChatGPT는 대중에게 공개되어 1년 넘게 사용자들과 소통해왔습니다. 대화를 통해 우리는 인간의 행동과 패턴에 대해 더 많이 배웠습니다. 소라는 ChatGPT를 기반으로 만들어졌기 때문에 간단한 텍스트만으로 상황을 파악하고, 사람이 이해할 수 있는 영상을 만들 수 있었던 것 같아요. OpenAI는 또한 소라를 ‘언어에 대한 깊은 이해와 정확한 메시지 해석 능력으로 생생한 감정을 표현하는 매력적인 캐릭터를 만들 수 있는 능력’이라고 평가했습니다. 물리법칙을 이해하는 AI 사용자의 프롬프트를 분석하여 물리법칙을 적용하는 영상을 제작할 수 있습니다. 아래 영상을 보시면, 버거를 한 입 먹으면 버거의 그 부분이 입 크기에 맞게 줄어드는 것을 보실 수 있습니다. 하지만 이 기능은 아직 완성되지 않았으며 내부적으로 지속적으로 개선되고 있습니다. 3. LMM(Multi-modal Model) 기반 Runway Zen 2는 이미지에서 움직이는 이미지를 생성하는 기능을 제공합니다. 이미지의 일부를 이동하는 것은 잘 되는데, 이미지 전체를 이동한 결과는 좋지 않습니다. 또한 안정적인 확산은 물체가 움직일 때마다 주변 배경이 바뀌기 때문에 사용이 어렵다는 단점이 있다. OpenAI의 ChatGPT 시리즈에는 텍스트, 이미지, 사운드 등 멀티미디어 정보를 이해할 수 있는 ChatGPT 4V가 포함되어 있습니다. 정보를 추론하고 분석하는 능력이 뛰어납니다. ChatGPT를 기반으로 구축된 Sora는 아래와 같이 이미지로부터 동영상을 생성하는 기능이 뛰어나며, 동영상을 확장하거나 프레임을 채울 수도 있습니다. Applied TechnologyOpen AI가 소라의 기술을 소개하는 페이지를 공개했습니다. 더 자세히 알고 싶으시다면 아래 링크를 방문해주세요. 소라리서치소라(Sora Research)소라는 딥러닝과 인공신경망을 활용해 대량의 이미지 데이터를 학습해 텍스트 기반의 이미지를 생성하는 기술입니다. 그럼 소라에는 어떤 기술이 적용됐는지 하나씩 살펴보도록 하자. 1. 시각적 데이터를 패치로 변환 패치(조각)란 시간에 따라 변화하는 각 공간에 대한 정보를 담고 있는 데이터 조각을 말한다. 소라는 패치 단위로 데이터의 움직임을 추적하고 시간에 따라 변화하는 행동을 분석합니다. . 위 사진을 보면 소라는 오른쪽과 같이 영상을 작은 패치로 나누고, 각 패치의 정보를 학습한 후, 사용자가 원하는 상황에 맞는 패치를 다시 만들어 결합해 줍니다. 이런 방식으로 해상도/화면 비율을 변경하거나, 빈 공간을 영상으로 채우거나, 원하는 영상을 추가로 삽입할 수 있습니다. 아래는 화면 비율을 변경하는 예입니다. 정보 손실 없이 이미지를 세로로 긴 모양, 정사각형, 가로로 긴 모양으로 변환할 수 있습니다. 아래는 원하는 영상을 생성하는 예시입니다. 왼쪽 영상을 보시면 뒤에 있는 사람과 배의 이미지가 잘려져 있는데, 소라는 이 부분을 학습해서 오른쪽과 같이 만들어냅니다. 2. 노이즈가 있는 패치를 업스케일링합니다. Sora는 확산 변압기 기술을 사용하여 시끄러운 패치를 깨끗한 패치로 변환합니다. 노이즈가 있는 복잡한 데이터를 실제 데이터와 유사한 고화질 영상으로 변환하는 기술로, 컴퓨팅 리소스가 늘어날수록 품질이 크게 향상됩니다. 이 확산 변환기 기술은 컴퓨팅 리소스가 증가함에 따라 노이즈 없는 고품질 이미지를 생성할 수 있습니다. 아래 영상은 ‘Base Compute'(기본 컴퓨팅, 컴퓨터 자원의 기본량)와 계산량을 4배로 늘리는 ‘4x Compute’, 100%로 계산량을 늘리는 ’32x Compute’의 차이를 보여주는 영상입니다. 32번. 보고서에는 언급되지 않았지만 소라는 32x 컴퓨트를 사용하고 있는 것으로 보이며, 여기에 확산 트랜스포머 기술을 적용해 고화질 영상을 구현했다. 3. 언어 이해 및 복잡한 시나리오 해석 Dali3에 적용된 텍스트 학습 모델을 사용하면 사용자 프롬프트를 정확하게 따르는 고품질 비디오를 생성할 수 있습니다. 아래 영상은 연구 홈페이지에서 캡션을 변경하는 예시입니다. 변화하는 프롬프트에 따라 정확한 영상이 생성되는 것을 확인할 수 있습니다. 4. 영상 확장 기능이라 불리는 영상을 다양한 각도로 확대할 수도 있습니다. 아래는 하나의 상황을 다른 각도에서 촬영한 것처럼 제작된 영상입니다. 일정한 속도와 영상의 일관성을 유지하기 때문에 마치 여러 대의 카메라로 촬영한 듯한 장면을 연출하는 것이 가능하다. 5. 영상 편집 확산 모델을 사용하면 프롬프트만 변경하면 영상을 편집할 수 있습니다. 오른쪽이 원본 영상이고, 프롬프트를 변경할 때마다 오른쪽 영상이 바뀌는 것을 확인할 수 있습니다. 6. 비디오 연결 서로 다른 비디오를 연결하여 합성 비디오를 만들 수 있습니다. Sora는 두 개의 비디오를 점차적으로 연결하여 완전히 다른 주제와 장면이 포함된 비디오로 원활하게 전환할 수 있습니다. 아래는 콜로세움 상공을 비행하는 드론과 바다를 헤엄치는 나비의 영상입니다. 이 두 이미지를 하나로 결합하면 다음과 같은 합성 이미지를 만들 수 있습니다. 아래는 골드러시 시대 캘리포니아의 합성 이미지와 날치 영상의 예입니다. 7. 긴 영상과 일관성 제공 영상 제작 기술의 가장 약점은 긴 영상을 만들면서 일관성을 유지하는 것입니다. Runway Zen 2는 4초의 비디오만 생성할 수 있으며, 이 경우에도 일관성이 떨어지는 경우가 많습니다. 하지만 소라는 최대 1분 분량의 영상을 제작하면서도 일관성을 유지할 수 있습니다. 사실 제가 가장 놀랐던 건 아래 영상이었는데, 기술이 이렇게 빨리 왔을 리가 없지 않나 싶어 한동안 부정하기도 했습니다. 많은 분들이 저와 같은 생각을 갖고 계셨던 것 같은데, 아래 공개된 59초 영상을 보시면 긴 영상임에도 불구하고 일관성이 유지된다는 점이 참으로 놀랍습니다. 또한, 영상 제작 기술 중 매우 어렵다고 하는 잃어버린 장면을 재현하는 영상도 매우 놀라웠습니다. 아래 영상에 나오는 달마시안은 사람이 다가가면 숨겨져 있다가 누군가 지나가면 다시 모습을 드러냅니다. 8. 소라를 통한 시뮬레이션 인간의 활동을 미리 시뮬레이션할 수 있습니다. 아래는 마인크래프트를 그리고 플레이하는 모습을 시뮬레이션한 영상입니다. 이러한 시뮬레이션을 통해 우리는 많은 활동을 미리 경험하고 예측할 수 있다고 생각합니다. 지금까지 OpenAI에서 출시한 이미지 생성 기술인 Sora의 정의와 특징, 응용기술에 대해 알아보았습니다. 아직 소라를 대중에게 공개할 계획은 없습니다. 이 정도 수준의 정교함을 이룰 수 있는 소라가 출시되지 못하는 이유와 현재 상황, 예상 가격, 각 산업에 미치는 영향은 다음 글을 참고하시기 바랍니다. 클라우드트리였습니다. ~~! ^^