可灵 AI 刚升级的这项功能，要解决视频生成的最大痛点

发布时间：2025-08-04 21:50

AI 视频生成从来不缺工具，缺的是靠谱的输出。角色形象前后对不上、画风时不时跳戏、动作充满油腻感，几乎成了行业默认的 bug。

但这次，快手可灵盯上了这块难啃的骨头。快手可灵 AI 在 WAIC 期间举办「生成式 AI 应用元年」的论坛上，正式发布两项重磅更新：一是全新创意工作台「灵动画布」，二是全面升级的「多图参考」功能。

前者支持最多 5 人在同一画布内协同创作，素材共享、实时联动、一键导出，打造出更流畅的创作闭环。而后者的多图参考功能则是我更关心的事项。

不得不说，AI 视频工具不缺，但能把一致性做到自然流畅的，还真不多。经过盲测，新模型的效果比之前提升了整整 102%，尤其是在角色、主体和场景一致性、动态质量、画风保持等维度，几乎打通了日常创作最容易翻车的几道关口。

先说说什么是多图参考。简单来说，就是你扔几张图片给 AI，它能理解并整合不同图片里的角色、主体、场景，然后根据你的描述，生成一个融合了这些元素的视频。

这个功能，主打的就是解决 AI 视频生成中最头疼的问题——一致性。

具体怎么玩？操作其实挺简单：上传 1-4 张参考图、框选需要的元素（人物、动物、物品、场景都行）、输入提示词描述它们的互动、点击生成，就能坐等视频生成。

早在今年 1 月，可灵 AI 就已经推出了这功能时，算是开了个好头，而经过半年的打磨，不吹不黑，这次迭代升级后确实有点东西。那么此次功能升级后到底强在哪？

以前最头疼的就是角色一致性，换个角度、换个动作，角色的脸和衣服就像换了个「人」。现在功能升级后，生成视频时，人物角色更自然、主体一致性大幅提升。

拿这个案例来说吧，在舞台上，身穿时尚衣服的女孩，带着水晶冠，镇定看向镜头——整个视频从头到尾，女孩的脸部特征、服装细节都保持得相当稳定。

再复杂一点的场景也能稳住：镜头特写角色大眼睛，缓慢拉远，角色双手翻动古书，眼神专注微微眨眼，耳朵和帽子微微抖动，这种连贯的动态细节，都是老版本难以比肩的。

再比如，以前两个角色互动，偶尔出现穿模、动作僵硬的问题，现在动态质量也有了显著的提升。有个企鹅推快递盒的案例特别有意思——动作自然，推箱子的力度感都出来了，不再是那种「滑行」的感觉。

一只企鹅在小路上推着快递盒走向家门口

光影、色彩、细节都有明显改善，整体效果更精致。画风保持也更稳定了，不会出现前后画风突变的情况。

比如棕熊穿西装从汽车走出来的镜头，镜头质感堪比电影海报，甚至有几分《泰坦尼克号》味了。

更重要的是，此次升级还新增了局部参考功能。

这个功能解决了一个老大难问题：以前参考图片时，AI 会把整张图的所有元素都考虑进去，不想要的背景反而抢戏。

现在你可以自己圈定参考范围——只要脸、只要衣服、只要某个特定道具，统统可以指定。生成结果更可控，也更符合创作者预期。

当然，话说回来，咱也得实事求是。

复杂的剧情编排、细腻的情感表达、专业级的镜头调度，这些还是得靠人类创作者，指望 AI 一键生成还远远做不到。

但放在日常创作场景里，比如产品展示、创意短视频、教学演示动画——可灵这波升级，已经相当能打了。

换句话说，它不是要取代导演，而是让每个人都能当上自己的「小导演」。在 AI 的加持下，创意的门槛正在快速降低，这或许才是最让人兴奋的地方。