Runway 와 Kling 그리고 SORA 까지 영상 생성형 AI 서비스 경쟁이 치열해지고 있는데요. 이런 유료구독모델들에 비교할 수 있는 수준은 아니지만 이때까지의 한계를 넘어서 발전된 모습으로 개인PC 에서도 영상제작이 가능한 수준의 오픈소스모델들이 발표되고 있습니다. 그 중 LTX Video (LTXV) 는 4초만에 5초재생영상을 생성시킬 수 있다는 믿을 수 없는 속도를 자랑하며 놀라게 했었습니다. 사실 한달전쯤 공개된 이 후 실사용에서 '속도는 놀랍지만 영상의 품질은 아직 부족하다' 라는 평가가 많았었는데 최근 다양한 형태로 보완해서 사용하는 방법들이 등장하면서 활용도가 높아지고 있습니다.
아래는 최근 큰 관심을 모으고 있는 구글의 Veo2 예시영상과 프롬프트를 가지고 제가 생성해본 영상입니다. LTXV 를 소개하시는 유튜버분들의 영상에서 이런 형태의 생성을 많이 하시는데 Veo2 와의 비교를 통해서 LTXV 의 생성수준을 가늠해보는 측면도 있지만 영상 생성형 AI 의 특성상 정확한 프롬프트를 통해 원하는 것을 제어하지 않으면 엉뚱한 결과가 나올가능성이 커서이기도 합니다.
기본설정이 되어있는 30 - 50스텝수준만으로는 부족한 부분이 많아서 100스텝이상 설정하는 것이 좋은 것 같습니다. 5초길이 생성할 경우 5-7분 내외의 시간이 소요되는 것 같은데 최근 나온 같은 비디오 오픈소스들이 15분에서 20분이상인 것을 생각하면 속도면에선 경쟁상대가 없습니다. 그야말로 압도적입니다. 영상품질면에서 아쉬운 것은 사실이지만 불과 반년전 상황과 비교하면 말문이 막힐 지경입니다.
사실 이 영상엔 STG 라는 국내 카이스트 연구자분들이 개발에 참여하셔서 화제를 모았던 기술을 지원하는 노드를 추가해 생성했는데요. 이 STG 는 LTXV 뿐만 아니라 다른 비디오생성모델에서도 간단하게 노드를 추가해 사용할 수 있는 것으로 생성영상의 불안정한 부분들을 보완해주는 노드입니다.
해외고수분들 중엔 STG + 컨트롤넷을 덧붙여서 사용해 영상오픈포즈를 통해 모델의 상상력을 제한해서 더욱 정교한 영상을 생성하시는 경우도 있었는데 LTXV 의 속도와 무게의 가벼움이 강력한 무기로 작용하고 있어서 활용범위가 참 넓어보였습니다. Comfy UI 를 통한 확장성에 놀라게 되기도 합니다.
현재는 LTXV , STG 모두 어렵지 않게 설치할 수 있도록 지원되고 있어서 사용해보실 분들은 해보셔도 좋을 것 같습니다.
그리고 LTXV 는 768 x 512 해상도를 지원 생성하는데 이미지 투 비디오로 생성할 경우 이미지가 너무 고해상도의 이미지일 경우 실제 생성된 영상에서 움직임이 거의 없이 생성되는 일이 생기는데요. 이미지를 생성하실 떄 LTXV 지원해상도로 생성하시는 편이 도움이 되실 겁니다.
https://blog.comfy.org/p/ltxv-day-1-comfyui
https://junhahyung.github.io/STGuidance/
'AI comfy UI' 카테고리의 다른 글
[node] 더 나은 디테일로 생성해보자 Detail-Daemon !! (1) | 2024.11.18 |
---|