随着Sora推出可基于任意文字生成视频的功能,AI大模型也为用户带来了全新玩法。目前,已经有国内外很多大模型加入这个“大家庭”,包括Runway的Gen系列、微软的Nuwa、Meta的Emu、谷歌的Phenaki/VideoPoet、CogVideo等。
“所有用户,都能通过清影(Ying)体验AI文生视频、图生视频能力。”在7月26日举行的智谱Open Day上,智谱AI CEO张鹏宣布推出全新大模型产品清影(Ying)。据介绍,只要你有好的创意(几个字到几百个字),再加上一点点耐心(30秒),清影就能生成6秒时长,1440×960清晰度,3:2比例的高精度视频。
大模型能真正让用户用上,才更加“大有可玩”。即日起,清影上线清言App,面向所有用户开放。输入一段文字后(俗称Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段。
除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的“老照片动起来”小程序也会同步上线,只需一步上传老照片,AI就能让凝练在旧时光中的照片灵动起来。
此外,清影API也同步上线大模型开放平台bigmodel.cn,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。新型DiT模型架构,更高效地压缩视频信息,以及更充分地融合文本和视频内容,让清影在复杂指令遵从能力、内容连贯性、大幅的画面调度上具有一定独到之处。
张鹏特别强调,在生成式视频模型的研发中,Scaling Law继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。随着算法、数据不断迭代,相信Scaling Law将继续发挥强有力作用。”他说。
“本次清影底座的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX相比前代CogVideo的推理速度提升了6倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。”张鹏表示。
智谱AI方面表示,清影的研发得到北京市的大力支持。当前,北京正在打造人工智能产业高地,海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。
清影的训练依托亦庄高性能算力集群,受益于亦庄良好的人工智能产业生态。清影在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。
哔哩哔哩作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。
目前,人工智能行业对多模态模型的探索还处于初级的阶段。智谱AI透露,清影还将不断迭代,智谱AI将持续努力打造对标世界先进水平的模型产品矩阵,致力于通过大模型链接物理世界的亿级用户,为千行百业带来持续创新与变革,加速迈向通用人工智能时代。
本文内容来自转载,如有侵权,请及时联系我们删除处理,侵权投诉邮箱:hezuo@gbacn.cn