본문 바로가기
AI !

[wan2.1] Wanx 의 역습! Veo2 를 눌러버린 Wan 2.1!

by slow AI 2025. 3. 3.

https://wanxai.com/

 

Wan_AI Creative Drawing_AI Painting_Artificial Intelligence_Large Model

Wan is an AI creative drawing platform under Alibaba, offering capabilities such as text-to-image, image editing, text-to-video, and image-to-video for AI-powered artistic creation.

wanxai.com

 

이게 무슨 일인가 싶기도 합니다. 얼마전 Veo2 의 API 적용으로 통합서비스쪽에서 Veo2 의 유료서비스를 시작한 시점에서 갑작스럽게 알리바바쪽에서 그것도 강력한 생성형 비디오AI 모델을 오픈소스로 공개했습니다. 바로 직전까지 Hyunhan Video 의 Skyreel 버전 공개로 기대와 아쉬움이 교차했고 Veo2 서비스를 통해 다시 한번 생성형 비디오AI 의 비싼 구독료를 실감하게 되었을터니  갑작스럽게도 WAN 2.1 모델이 사용자들에게  최신의 유료버전에 가까운 성능을 보여주는 모델이 등장했으니 흥분하지 않을 수 없을 겁니다. 게다가 금새 낮은 Vram 에서도 사용해볼 수 있을만큼 정리가 되어서 개인 PC 에서 사용이 가능하니 더 그럴 수 밖에요. 멀게만 느껴졌던 생성형 비디오 AI 의 거리감이 정말 한껏 좁혀져버렸습니다

.

 

 

WAN 2.1 모델 중 720p FP8 버전 모델을 Comfy UI 에서 설치 후 돌려볼 수 있는 있는 파일들이 공개되어서 바로 생성해보았는데 결과는 놀라운 수준이었습니다.  위의 두 영상은 같은 이미지로 각각 2초, 5초 영상을 생성한 결과물들입니다. 프레임보간이 되지 않은 상태라 거칠어 보이긴 합니다만 인물의 피부질감과 눈동자의 표현이 놀라운 수준이에요. 얼굴중심의 이미지가 동영상 생성에 유리한 조건이긴 합니다만 반년전이라면 단 두세번만에 이정도 결과물을 바로 보여주는 건 상상하기 힘들었습니니다.

 

최초 모델로드 이후의 생성시간은 2초 + 16프레임시 1081초, 5초 + 24프레임시는 4851초 소요되었습니다. 이전의다른 오픈소스모델들이 15분에서 25분 정도의 생성시간이 걸렸던 것을 생각하면 느리다고 하기도 어렵고 게다가 앞으로 wavespeed 같은 단축이 가능한 형태의 노드구성이 가능해진다면 비교도 어려울 만큼 압도적인 성능을 보여줍니다.

 

복잡한 형태의 움직임나 인물이 비중이 작을 경우 얼굴의 묘사가 크게 떨어지긴 하는데 놀라운건 동작 자체의 움직임은 무너지거나 비정상적인 형태의 움직임이 나올지 않습니다. 카메라워크 역시 인물의 움직임 내에서 작용하고 있습니다. 꽤 복잡한 프롬프트로 생성했었는데 WAN 2.1 모델의 이해도가 상당하다는 것을 느낄 수 있는 영상이였습니다. 물론 이런 형태의 생성에서 Kling 이나 SORA 같은 유료서비스와 비교시 떨어지는 면이 꽤 클 수는 있지만  여타 다른 오픈소스 모델들처럼 갈길이 너무 멀다라는 느낌이 없어요. 금방이라도 따라잡을 것처럼 느껴집니다. 생성모델이 FP8 버전인데다 제가 사용하는 PC 의 성능이 겨우 진입정도나 가능한 정도라는 걸 생각한다면 FP16 버전과 이후 개선될 모델들에서의 가능성은 더 놀라울 것 같습니다. WAN 2.1 의 성능은 지난해 말부터 발표되었던 여타 생성형 비디오 모델들과 비교가 불가할 정도입니다. 사용해보실 분들은 테스트해보시는 것도 나쁘지 않을 것 같습니다. 자고 일어나면 변해있는 세상 이라는 표현이 맞을 것 같은 AI 모델들의 발전은 정말 흥미롭습니다. 다음에 다시 또 좋은 모델로 소개해보겠습니다.

반응형

'AI !' 카테고리의 다른 글

[AI!] AI영상 전문가들은 어떻게 만들고 있을까  (3) 2024.12.15
[AI!] 이미지 생성형 AI 의 시작  (6) 2024.11.05