IT 之家 3 月 29 日音书,清华大学东谈主工智能商议院副院长、生数科技独创东谈主兼首席科学家朱军本日发布了高可控视频大模子 Vidu Q1,官方声称其为业内首个高可控 AI 视频大模子。
IT 之家从官方获悉,Vidu Q1 在多主体细节可控(极度是四肢、布局可控)、音效同步可控、画质增强等方面均得回权贵顺利。以多主体细节可控为例,在语义提示的基础上,通过融入参考图的视觉提示,Vidu Q1 相沿对场景中多主体的位置、大小、畅通轨迹等属性进行更进一步的可控,对统统四肢步履(出场、退场、坐立姿态、行动道路)进行精确调度。
其相沿音效同步可控功能开yun体育网,可确保跟着视频环境与画面转场,Vidu Q1 大约输诞生成相应音效,并可精确终结每段音效的短长区间,精确教导每段音频出现的期间点,如 0-2s 风声、3-5s 雨声等。