본문 바로가기
AI !

[AI!] AI영상 전문가들은 어떻게 만들고 있을까

by slow AI 2024. 12. 15.

https://youtu.be/iVtqtu6HceI?si=1RkgmriPK3qXOdMZ

Echoes of Grace · Kaku Drop with Sora

 

 '저런 AI 영상을 어떻게 만든걸까 ?'

 

위의 영상은 인스타그램에서 디지털 크리에이터로 많은 팔로워를 모인 Kaku drop 과 불과 며칠전 생성형 AI 계에 큰 파장을 일으키며 공개된 Open AI 의 Sora 가 9월부터 비공개 베타테스터를 하면서 협업해 공개한 영상인데요. Kaku drop 특유의 소녀이미지를 그대로 영상으로 탄생시킨 작품입니다. 이전부터 Kaku drop 의 작품들을 봐왔지만 이번 영상은 그야말로 놀라웠습니다. 기존의 영상생성형 AI 서비스들과 차별화된 Sora 모델의 뛰어난 영상 생성능력을 그대로 보여준 작품인데 문득 '어떻게 어떤 순서로 작업하면 저런 수준의 영상을 제작할 수 있을까' 하는 다시금 들었습니다. 사실 2024년 전후로 워낙 이 분야의 발전속도가 빨라지고영상/광고 분야에서 활용하기 시작하면서 일반에게도 접근이 쉬워지긴 했지만 높은 수준의 이미지와 영상을 제작한다는 것은 별개의 문제였습니다. 이런 수준의 영상은 프롬프트의 활용과 경험의 적립문제 뿐만 아니라 편집과 후반처리 등에 대한 이해가 있어야 하는데 이전까진 영상관련해 다뤄본적도 없는 입장에선 현재의 너무 많은 정보 앞에서 무엇을 어디서부터 시작해야 하는지에 대한 판단이 쉽지 않았습니다. 이미지/영상 생성형 AI툴들을 다뤄보면서 이전에도 이런 생각들이 자주 들어서 관련사이트과 유튜브 등에서 전문가 수준에 올라선 이들의 코멘트를 찾아보면서 이런 작업과정들에 대해 찾아보곤 했었는데 그 내용들을 정리해보면 좋겠다는 생각이 들었습니다. 지극히 초보수준의 눈높이로 본 작업과정에 대한 정리이기때문에 깊은 이야기를 할 순 없겠지만 제작하는 각 과정과 그 과정에서 사용되는 툴에 대한 이야기를 해보도록 하겠습니다.

 

제작과정에 대한 순서

 

   ◎  핵심이미지 만들기 : Midjourney 

 

영상에서 부드러운 전환이나 중심이 될만한 이미지인 키프레임과 영감을 줄 수 있을 이미지를 합해서 핵심이미지라는 단어로 표현했습니다. 관련지식이나 업력이 있는 것이 아니기에 어떤 표현이 좋을지 고민했는데 대충 그런 의미로 이해해주세요^^;; 

(현시점의 여정의 시작, 미드저니)

 

영상의 기초소스가 되는 핵심이미지를 만드는데 있어 크리에이터들이 가장 많이 언급하고 사용하는 툴은 Midjourney 미드저니였습니다. 초기 이미지생성형 AI 를 대중에게 서비스하고 알려온 미드저니의 힘은 V6 버전 이후에 폭발적으로 확장하며 정체성면에서 자신만의 독특한 감성을 구축하는데 성공했고 이러한 감성을 바탕으로 생성된 이미지는 다른 여타의 생성형 AI 들이 범접할 수 없는 영역을 만들었습니다. 이런한 감성의 영역, 그리고 익숙한 사용경험을 아우러 전문가 수준의 이들이 미드저니의 가장 큰 경쟁력으로 보는 것은 '속도' 입니다. 한 장면의 작업에 수십장부터 수백장의 핵심이미지를 생성하고 나은 선택을 고민해야 할 크리레이터로선 원하는 이미지를 1-2분 내에 4장를 선택할 수 있도록 하고 그 이미지의 변주를 다시 아주 쉽게 이어나갈 수 있도록 하는 미드저니의 구성은 아주 매력적인 것입니다. 앞서 언급했던 키프레임선택과 새로운 영감을 자극할 수 있는 이미지를 동시에 만족시킬 수 있는 이 '속도' 는 엄청난 힘으로 작용하는 것 같습니다. 프롬프트의 이해와 생성력에서 미드저니보다 높은 점수를 받는 새로운 AI모델들이 생겨나도 숙련된 작업자들의 선택을 받는 이유는 분명한 것 같습니다. 미드저니 외에 Stable diffusion 스테이블 디퓨전의 모델들 을 서비스사이트나 개인PC 에서 사용하는 경우가 그 다음으로  많을듯  합니다.

(미드저니의 독특한 감성과 품질은 놀라운 수준)

 


    ◎ 핵심이미지 보완하기 : Comfy UI , Photoshop

 

미드저니, SD 모델들로 생성한 핵심이미지 그 자체만으로도 완성도가 높지만 이에 그치치않고 좀 더 창작자 자신의 색깔을 더하거나 이미지의 부족한 세밀함을 높이는 작업은 필수적인 부분인 것 같습니다. 이 작업에서 가장 많이 쓰이는 툴은 Comfy UI 인 것 같습니다. 이젠 단순히 스테이블 디퓨전의 UI 중 하나가 아닌 생성형 AI 관련 오픈소스툴들의 터미널이 된 Comfy UI 는 이미지 보완작업의 모든 부분을 맡아 한번에 처리할 수 있을만큼 다양한 툴과 노드, 특화모델들이 사용자의 의도대로 사용할 수 있게 연결되어있습니다. 이미지의 특징을 가져오는 IP-Adapter, 조명효과를 재설정하는 IC-Light, 이미지의 깊이감과 포즈를 끌어낼 수 있는 Control-net 까지 원본이미지에 그치지 않고 분해와 재구성을 통해 재창조에 가까운 효과를 얻을 수 있고 개성이 강한 SD 모델을 통해 독특한 효과를 줄 수 있다는 것이 가장 큰 장점입니다. 복잡한 노드구성이 접근을 어렵게 하는 부분이기도 하지만 숙련된 전문가들이 자신만의 워크플로우를 통해 이미지의 완성도를 끌어올리는 도구로써의 Comfy UI 의 능력을 놀라울 정도입니다. 

(오픈소스들의 집합소-터미널 역할에 가까워진 Comfy UI)

 

Photoshop 포토샵은 이미지를 변형, 왜곡, 재생성 등을 하는데 있어 Comfy UI 보다 훨씬 직관적인 형태로 제공하는 전통의 툴입니다.  AI 기술과의 연계로 거의 모든 부분에 있어 사용자의 편의와 기능의 성능이 높아져 Photoshop 이 익숙한 분들의 이미지변형기술의 깊이는 Comfy UI 를 활용하는 것과 다르지 않은 수준입니다. 그 외에도 Photoshop 과 비슷한 기능을 제공하면서 스테이블디퓨전 모델과 연동이 가능한 공개프로그램인 Krita 를 사용하기도 합니다.

 

   ◎  이미지를 영상으로 : Runway, Kling, Minimax

 

현시점에서 영상 생성형 AI 는 는 Runway 런웨이와 Kling 클링 두 모델이 쌍두마차로 사용자들에게 높은 편의성과 함께 고품질의 AI 영상제작을 서비스하고 있습니다. 특히 런웨이 모델은 생성하는 영상에 부여되는 마치 영화와도 같은 분위기가 미드저니를 통해 생성된 이미지와 참 좋은 궁합을 보여 유튜브, 인스타와 같은 SNS 에 업로드되는 뮤직비디오나 SF 분위기의 영상제작에 선호되고 있습니다. 영상 생성형 AI 의 대중적 서비스를 초기부터 서비스해오면서 Gen-3 모델로 주도하기 시작했고 캐릭터와 카메라의 움직임제어, 캐릭터의 일관성부여, 인물의 표정묘사에 집중한 액트원까지 사용자들이 원하는 부분을 빠르게 도입했습니다. 아직은 프롬프트수행의 정확성, 다소 부자연스러운 물리법치구현, 동양인의 묘사 등 발전시켜나가야 할 부분이 있지만 사용자입장에서 쉽고 원하는 영상을 생성할 수 있는 툴이라는 것엔 이견이 없을 것 같습니다.

(다양한 구성과 편의성으로 무장한 Runway)

 

Kling 클링은 후발주자이면서도(그래봐야 몇개월차이긴 합니다만) 런웨이의 뒤를 이어 많은 사용자들의 호응을 얻고 있는 서비스입니다. 등장 자체가 꽤 갑작스러웠음에도 강력한 생성능력으로 빠르게 인기를 얻었고 카메라와 인물의 동선설정같은 기능도 탑재해 사용자들의 편의성을 키워왔습니다.. 특히 꽃이나 동물의 세부묘사, 인물의 동작묘사 등에서 런웨이보다 조금 더 세밀하고 다이나믹한 느낌을 주고 색이 표현이 좀 더 명확하며 동양인의 얼굴표현에서 나은 결과물을 보여주고 있다는 평이 많아지면서 관심이 크게 높아졌습니다. 

( 사용자가 많은 탓인지 생서완료시까지 오랜 대기가 필요한 실정)

 

Hailuo AI 하이루오 AI 에서 서비스되고 있는 Minimax 는 여러가지로 평가가 엇갈리고 있습니다. 프롬프트의 이해력, 5초영상내에서 폭넓게 보여지는 묘사범위 등에서 위의 두모델을 앞서는 모습을 보여주고 있지만 영상의 화질이 다소 떨어지고 영상내 움직임이 커질수록 인물의 묘사가 유지되지 못하는 경우가 많습니다. 또한 카메라의 조작, 움직임 설정 등 여타 생성형 AI 의 편의성개선에 발맞추지 못하고 있는 모습입니다. 워낙 성능에 대한 기대와 잠재성이 높았던 모델인만큼 더 많은 발전이 있기를 바라는 영상 생성형 AI 입니다.

이외에도 유료서비스를 하는 모델들에 비해 언급을 되고 있지 않지만 새로운 영상생성형 AI 오픈소스모델들이 등장하면서

개인PC 나 사이트를 통해 영상제작을 하는 경우가 있습니다. 높은 품질의 영상을 만들기 위해선 워크플로우에 대한 이해가 높아야 하는 점이나 개인PC 의 경우 필요사양이 높고 시간이 올려걸린다는 점들이 문제이지만 영상생성에 관한 제약이 없다는 점에서 활용되고 있는 부분이 있습니다. 

(단순한 구성이긴 하지만 프롬프트의 이행력/카메라워크의 구현은 더 높은 느낌)

 

    ◎ 영상의 편집과 후반작업 : Premiere Pro , Capcut  그리고 After effect

 

이제 만들어진 영상을 정리하고 모아 이야기를 전달하기 위한 편집과 마무리를 위한 후반작업을 진행해야 합니다. 현재는 영상관련툴들이 각자의 강점을 가지고 많이 등장하고 있어서 어느 것이 더 낫다고 이야기하기 힘들겠습니다만 지금부터 이야기해 볼 3가지 툴은 활용범위나 스타일이 전혀 다르고 전문가들은 물론 일반사용자들의 사용비중이 높은 툴들입니다.편집과정에서 전문가들이 가장 선호하는 툴은 역시 전통의 Premiere Pro 프리미어프로입니다. Mac 의 Final cut 파이널 컷과 함께 IBM PC 계열에선 사실상 정상의 자리를 지켜오던 툴로 영상업계의 표준이 되어온 프로그램 중 하나이기에 오랜 기간 누적되어 온 사용자들의 전문적 경험을 바탕으로한 편의성과 기능성은 비교되기가 어려울 지경입니다. 최근 몇년새 Capcut 과 같은 좀 더 직관적이고 쉽고 빠르게 접근할 수 있는 편집프로그램이 여럿 나온 상황에서도 결국 프리미어프로로 돌아오게 되는 이유가 있을 겁니다. 수많은 툴의 에셋, 툴활용에 대한 새로운 정보, 협업의 용이성 등 영상계열의 표준툴이 되어있는 프리미어 프로의 장점은 확실할 겁니다. 

(모바일시대의 절대강자 Capcut)

 

Capcut 캡컷은 그야말로 스마트폰시대, SNS 시대를 물살에 올라탄 현시대의 신흥강자입니다. 스마트폰에서 맞게 개발된 캡컷은 간단한 화면터치만으로도 영상의 편집, 이팩터의 적용을 손쉽게 할 수 있는데다 인스타, 틱톡 등 짧은 영상에 맞는 단순하면서도 재밌게 사용할 수 있는 각종 애니메이션, 스티커, 이모티컨들을 곧바로 적용하고 업로드할 수 있도록 연동되어 있어 AI 영상제작 후 빠르고 지속적인 게시를 가능케 합니다. 기능적인 부분들이 단순화되었다고는 하지만 PC 나 스마트폰 모두 전문적 영상제작에 필요한 요소들은 빠짐없이 구성되어있습니다. 특히 특수효과의 영역마저도 마스킹에 대한 이해가 있다면 어렵지 않게 응용이 가능합니다.  프리미어프로와 비교가 어렵다는 평가를 하시는 분들도 계시지만 두루 사용하기에 오히려 복잡성이 덜해 전문영역에서도 어필하고 있는 것 같습니다. 그리고 무엇보다도 기본사용이 무료인 점, 유료모델도 가격면에서 낮은 수준을 유지하고 있다는 점은 여타 프로그램들에 비해 강점일 겁니다.

 

After effect 애프터이펙트는 특수효과에 좀 더 특화된 이 분야의 절대왕자입니다. 그만큼 영상관련전문가들의 이미지/영상 생성형 AI 를 통한 제작에 활용이 많이 되고 있는 툴이 바로 이 애프터이펙트였습니다. 영상전체의 편집보다는 일부분에 대해 다른 영상편집 툴에서 적용하기 어려운 모션그래픽과 특수효과를 넣기 위한 후반작업을 위한 툴입니다. 숙련자들의  이 툴의 응용범위은 그야말로 놀라운 수준입니다. AI 영상 특유의 어색한 움직임을 직접적 수정하거나 원하는 영상이 생성되지 않는 경우 핵심이미지에 애니메이션을 주고 생성된 영상과 교차시키는 등 자신들만의 독특함을 표현하고 첨가해 영상의 방향성을 이끌어가는데 중요한 역할을 하는 툴입니다.

 

  ◎  그냥 조금 남은 이야기

 

대략적인 AI영상의 제작과정과 그 과정에 쓰이는 툴들에 대해 정리해보았는데요. 이 글을 작성한 오늘 이후에 이 내용이 얼마나 효용이 있고 맞는지 알 수 없어질 만큼 AI 관련된 업계의 변화가 빨라서 내년엔 의미없는 글이 될 수도 있을 것 같습니다. 금세 '옛날엔 저렇게 복잡하게 했구만...' 하고 추억에 젖는 글이 되지 않을까 싶어요 ^^;;;  그래도 영상을 제작한다는 기본적인 흐름은 쉽게 변하진 않을 겁니다. AI 생성을 쉽게 도와주지만 결국 선택하고 편집하는 건 사람의 선택과 그 결과물이니까요.

 

며칠전 Opan AI 의 SORA 가 일반에게 공개되면서 사용후기도 올라오고 있어서 유심히 보고 있는데요. 높은 서비스가격에 비해 실망스럽다는 반응도 있지만 아직 서비스초기임에도 영상의 변주와 활용성면에서 다른 영상생서형 모델들과 퀘를 달리하는 모습들이 놀라웠습니다. 불과 몇개월사이에 모두를 놀라게 했던 기존의 AI 모델들을 낡은 것으로 보이게 만들기 충분했거든요. 그리고 이틀전엔 내년의 서비스된다는 Google 의 Veo2 는 예고영상만으로 일주일이 조금 넘은  SORA 역시 그렇게 보이게 만들고 있습니다. 변화가 더 새로운 변화를 불러온다는 쉽게 체감할만큼 기술의 심화가 빠르다는 걸 글을 쓰고 정리하면서 느꼈어요. 기대가 됩니다. 내일 어떤 툴이 업데이트가 될지, 또 어떤 모습을 보여줄지.

 

이상 AI 영상생성과 그 과정에 대한 글이였습니다.

그럼 다음에 뵈요^^

반응형

'AI !' 카테고리의 다른 글

[AI!] 이미지 생성형 AI 의 시작  (6) 2024.11.05