본문 바로가기
AI comfy UI

[node] 엄청난 속도를 자랑하는 LTX Video 그리고 STG

by slow AI 2024. 12. 29.

(최초의 실시간 영상 생성형 AI 라는 문구가 어색하지 않은 속도의 LTXV)

 

Runway 와 Kling 그리고 SORA 까지 영상 생성형 AI 서비스 경쟁이 치열해지고 있는데요. 이런 유료구독모델들에 비교할 수 있는 수준은 아니지만 이때까지의 한계를 넘어서 발전된 모습으로 개인PC 에서도 영상제작이 가능한 수준의 오픈소스모델들이 발표되고 있습니다. 그 중 LTX Video (LTXV) 는 4초만에 5초재생영상을 생성시킬 수 있다는 믿을 수 없는 속도를 자랑하며 놀라게 했었습니다. 사실 한달전쯤 공개된 이 후 실사용에서 '속도는 놀랍지만 영상의 품질은 아직 부족하다' 라는 평가가 많았었는데 최근 다양한 형태로 보완해서 사용하는 방법들이 등장하면서 활용도가 높아지고 있습니다.

 

아래는 최근 큰 관심을 모으고 있는 구글의 Veo2 예시영상과 프롬프트를 가지고 제가 생성해본 영상입니다.  LTXV 를 소개하시는 유튜버분들의 영상에서 이런 형태의 생성을 많이 하시는데 Veo2 와의 비교를 통해서 LTXV 의 생성수준을 가늠해보는 측면도 있지만 영상 생성형 AI 의 특성상 정확한 프롬프트를 통해 원하는 것을 제어하지 않으면 엉뚱한 결과가 나올가능성이 커서이기도 합니다.

(50스텝 - 강아지의 꼬리가 자아를 가져버렸습니다)
(100스텝이상 - 속도면에선 떨어지지만 결과물은 훨씬 안정적입니다)

 

기본설정이 되어있는 30 - 50스텝수준만으로는 부족한 부분이 많아서 100스텝이상 설정하는 것이 좋은 것 같습니다. 5초길이 생성할 경우 5-7분 내외의 시간이 소요되는 것 같은데 최근 나온 같은 비디오 오픈소스들이 15분에서 20분이상인 것을 생각하면  속도면에선 경쟁상대가 없습니다. 그야말로 압도적입니다. 영상품질면에서 아쉬운 것은 사실이지만 불과 반년전 상황과 비교하면 말문이 막힐 지경입니다.

 

사실 이 영상엔 STG 라는 국내 카이스트 연구자분들이 개발에 참여하셔서 화제를 모았던 기술을 지원하는 노드를 추가해 생성했는데요. 이 STG 는 LTXV 뿐만 아니라 다른 비디오생성모델에서도 간단하게 노드를 추가해 사용할 수 있는 것으로 생성영상의 불안정한 부분들을 보완해주는 노드입니다.

(색의 번짐이나 대사의 경계가 선명해집니다)

 

해외고수분들 중엔 STG + 컨트롤넷을 덧붙여서 사용해 영상오픈포즈를 통해 모델의 상상력을 제한해서 더욱 정교한 영상을 생성하시는 경우도 있었는데 LTXV 의 속도와 무게의 가벼움이 강력한 무기로 작용하고 있어서 활용범위가 참 넓어보였습니다. Comfy UI 를 통한 확장성에 놀라게 되기도 합니다.

 

현재는 LTXV , STG 모두 어렵지 않게 설치할 수 있도록 지원되고 있어서 사용해보실 분들은 해보셔도 좋을 것 같습니다.

그리고 LTXV 는 768 x 512 해상도를 지원 생성하는데 이미지 투 비디오로 생성할 경우 이미지가 너무 고해상도의 이미지일 경우 실제 생성된 영상에서 움직임이 거의 없이 생성되는 일이 생기는데요. 이미지를 생성하실 떄 LTXV 지원해상도로 생성하시는 편이 도움이 되실 겁니다. 

 

https://blog.comfy.org/p/ltxv-day-1-comfyui

 

NEW VIDEO MODEL: LTXV day-1 Native Support in ComfyUI

We’re excited, as always, to share that LTX Video (LTXV), the groundbreaking video generation model from Lightricks, is natively supported in ComfyUI on Day 1!

blog.comfy.org

https://www.ltxvideo.org/ko

 

LTX Video: 멋진 비주얼을 위한 AI 비디오 제너레이터

LTX-Video AI로 AI 비디오 제너레이션 최전선을 경험하세요! LTX-Video AI 비디오는 텍스트와 이미지를 몇 분 만에 동적이며 迷人的的视频로 변환합니다.

www.ltxvideo.org

 

https://junhahyung.github.io/STGuidance/

 

Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

We introduce Spatiotemporal Skip Guidance (STG), a simple training-free sampling guidance method for enhancing transformer-based video diffusion models. STG employs an implicit weak model via self-perturbation, avoiding the need for external models or addi

junhahyung.github.io

 

 

반응형