文章来源:AI鲸选社
作者:到底哥
在Sora难产却爆🔥的这几天中,每个人都有点望梅不止渴的心态。
未来是什么,ChatGPT形成的共识可能用了3月,Sora形成共识可能也就3天。大家也不用焦虑,从而被割韭菜。以下这个网站能排队提前申请测试资格,也可以看到Sora目前生成的视频Demo和对应提示词,并且支持汉语在内的多语言。
当然,这个网站也是个套壳网站,缴费还是等Sora上线后,去官网缴费比较靠谱。
这里给大家泼一盆冷水,Sora上线后,能AI生成的场景肯定有限,并且复杂度不会太高,价格也肯定很贵(ChatGPT4一个月20美元,Sora肯定更贵),所以早期几乎不会有什么实际用途。
当然,未来迭代几代后,杀死剪辑工具剪映肯定不在话下,就像剪映让Adobe Pr买断费大幅降低一样。
这其中就出现了一个问题,在Sora难实用化和剪映不够智能的中间态,还有没有可用智能的AI视频制作工具?
这时候,Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。
这是我翻译的LAVE官方宣传文档,大家对这个产品可以有一个清晰的认知。
我们提供了LAVE产品,一个视频编辑工具,是由LLM提供的语言增强。LAVE引入了一个基于LLM的执行Agents,能够理解用户的自然语言命令、计划和执行相关操作,以实现用户的编辑目标。
这些动作包括概念化协助,如头脑风暴和描述视频料库,包括基于语义的视频检索、故事板(将视频排序以形成叙事)和修剪剪辑,为了启用这些代理动作,LAVE使用视觉语言模型(VLMs)自动生成视频的视觉效果。
我们从产品界面看LAVE的布局:
从LAVE的视频生成界面可以看到,左边是自然语言描述视频内容的窗口,可以输入提示词以及展示 LLM 详细的剪辑逻辑。
右边是AI直接生成的视频,可以鼠标点击后获得 LLM, 帮你总结的这段视频的内容,不需要播放, AI 也会自动生成的素材标题。
底下是视频自动剪辑的可视轴,视频就在这里自动和手动剪辑。
实际上,LAVE产品化也没那么完整,更多还是Agents模式跑程序。
具体是LAVE根据你指令的角色分配之后,描述Agents可以执行的一系列动作。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。
可调用5种内容:1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。前四种功能可通过Agents访问,第5种直接操作。
其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。LAVE以每秒一帧的速率对视频帧进行采样。然后使用大模型对每帧进行标题标注。
LAVE到底好不好用,官网说法是LAVE为视频编辑提供了两种交互模式:代理辅助和直接操作。这种双重模式为用户提供了灵活性,并允许他们根据需要细化代理操作。
其中8名试验者说非常好用,8名人士中有新手也有成熟的视频剪辑师。
其实到底好不好用,可能在于LLM对视频每帧的理解能力,这就需要产品正式发布时才可用。
不过从现在来看,Sora的世界模型、物理引擎,被很多技术大牛评论并不可能,只是将训练的数据压缩权重。
而剪映是通过视频库中给视频打标签,然后合成相应内容,对视频的每一帧理解不到位,所以合成的只是粗略符合,而且现在抖音会给剪映AI生成的视频限流。
LAVE的中间态是深刻了解视频每一帧,然后自动剪辑成符合每一句文案的画面。未来配合Sora使用,可能对短视频和广告制作行业,都将快速产生影响。
其实国内也有创业者做过类似的产品Demo,甚至设计了视频自动发布的部分,只是这款复杂的产品没能最终面市。
只能说现在视频为王的时代,字节跳动的张楠都去亲自负责剪映,类似产品确实有机会。最终比拼的是,用户手中使用的效果。
本文链接:https://www.aixinzhijie.com/article/6844866
转载请注明文章出处