传统AI视频需后期配音,而可灵2.6的音画同出引擎实现端到端生成:

精准对口型:生成英文台词时自动调整唇部肌肉运动轨迹,音素匹配度98.7%;
环境音建模:输入“雨夜咖啡馆”,系统同步生成雨滴击打遮阳棚的方位音效+拿铁蒸汽声;
动态混音:动作场面自动强化低频震动音波,对话场景突出人声频段。
技术方案:独创时空音频图谱:将声波分解为32768个时频单元,与视频帧的光流数据实时对齐。例如人物奔跑时,脚步声频率随地面材质(石板→沙滩)平滑过渡。
用户价值:短视频团队实测显示,音画同步使创作效率提升3倍,成本降低60%(无需外包配音)。