알리바바에서 며칠전 이미지와 오디오를 기반으로 영상을 생성하는 모델 WAN2.2 S2V를 출시했습니다.
자세한 내용은 아래 링크들에서 확인 가능합니다.
https://humanaigc.github.io/wan-s2v-webpage/
https://huggingface.co/spaces/Wan-AI/Wan2.2-S2V
ComfyUI에서 바로 S2V모델에 대응하는 모델을 개발하여 업데이트를 공개했습니다.
입력 이미지와 오디오 파일을 입력으로 받아서
적절한 프롬프트를 입력해주면....
이런 영상이 만들어집니다.
현재 양자화 모델도 나와있어 가정용 GPU로 테스트해 볼 수 있습니다.
점점 특이점을 향해 가고 있네요.