文生视频“黑马”Morph Studio来袭：好用、1080P 、7秒时长还免费

作者：机器之心 2024-01-06 16:40:47

人工智能新闻

近期，专注于 text-to-video 生成技术与社区的初创公司 Morph Studio 对模型进行了一次重要更新。这些视频正是模型更新后的作品，画面清晰，细节生动。

“发光的水母从海洋中慢慢升起，”在 Morph Studio 中继续输入想看到的景象，“在夜空中变成闪闪发光的星座”。

几分钟后，Morph Studio 生成一个短视频。一只水母通体透明，闪闪发光，一边旋转着一边上升，摇曳的身姿与夜空繁星相映成趣。

luminescent jellyfish ascend from a mystical ocean, transforming into sparkling constellations in the night sky

输入“ joker cinematic ”，曾经席卷全球的那张脸又回来了。

joker cinematic Hyper realistic Joaquin Phoenix as Joker cinematic shot smoke. in the city street of new york neon

近期，专注于 text-to-video 生成技术与社区的初创公司 Morph Studio 对模型进行了一次重要更新。这些视频正是模型更新后的作品，画面清晰，细节生动。

Morph Studio 是世界第一个推出公众可随意测试 text-to-video 产品的团队，比 Runway 开放 Gen2 公测的时间还早。

和一些炙手可热的 text-to-video 产品仅提供 720P 的免费服务不同，Morph Studio 从一开始就提供默认 1080P 以及最长 7 秒生成时间的免费服务。更高分辨率、更长生成时长、更好的意图表达是我们认为 text-to-video 的三个最关键的指标，三个指标上 Morph 都做到了行业 SOTA 。

好莱坞电影单镜头平均时长有 6 秒，将生成时长拉到 7 秒可以解锁更多用户的创作需求。

体验 Morph Studio 的模型很简单，注册 discord 即可免费使用。

画面红色方框部分中带有“pro”字样的模型就是更新后的模型，也是本文体验的对象。

摄像机运动是视频制作的基础语言，也是一种强大的叙述手段。Morph 提供几种常规的摄像机语言，包括变焦、平移（上、下、左、右）、旋转（顺时针或逆时针）和静态镜头。

Morph 还提供控制视频运动的 MOTION 功能（1-10）。数值越大动作越剧烈、夸张，设置的数值越小，动作越微妙、平滑。

帧率（FPS）提供从8 -30 的调整幅度，值越高，视频越流畅，尺寸也越大。例如，-FPS 30 将生成最流畅但也是最大的视频。默认情况下，所有视频均以每秒 24 帧的速度创建。

视频长度默认为 3 秒，生成 7 秒视频，可以在命令中输入 -s 7。另外，模型还提供 5 种视频比例供选择。

如果你对镜头、帧率和视频长度等细节有要求，请在输入内容性提示后继续输入相应参数。（目前仅支持英文输入。）

我们体验了一把更新后的模型服务，强烈感受到 1080P 带来的视觉震撼。

直到最近，人类才有了第一张雪豹在星空下漫步的照片：

人类拍摄到的第一张雪豹在星空下漫步的照片。

我们想知道，Morph Studio 的模型能不能生成这种比较罕见的动物视频呢？

同样的 prompt ，我们将 Morph Studio 的作品放在了视频上部分，将用 Pika 生成的作品放在视频下部分。

a snow leopard walking under a starry night，cinematic realistic, super detail，-motion 10，-ar 16:9，-zoom in,-pan up，-fps 30，-s 7. negative: Extra limbs，Missing arms and legs，fused fingers and legs，extra fingers，disfigure

Morph Studio 的答卷，文本理解准确。1080P 画面中，雪豹毛发细节丰富，栩栩如生。背景中可以看到银河和星星。不过雪豹走动幅度不明显。

Pika 的作业中，雪豹确实在步行，但夜空似乎被理解成飘着鹅毛大雪的夜。无论是雪豹风格还是细节，还有画面清晰度都还有差距。

再看看人物生成的效果。

masterpiece best quality ultra detailed RAW video 1girl solo dancing digital painting beautiful cyborg girl age 21 long wavy red hair blue eyes delicate pale white skin perfect body singing in the eerie light of dawn in a post-apocalyp

Morph Studio 生成的作品中，高分辨率带来极为细腻的面部轮廓和微表情，黎明光照下，发丝细节清晰可见。

受制于分辨率和色彩、光线层次的缺乏，Pika 生成的画面整体偏青，人物面部细节也不太尽如人意。

人物、动物都感受过了，再来看看建筑（人造物）的生成效果。

La torre eifel starry night van gogh epic stylish fine art complex deep colours flowing fky moving clouds

和 Pika 作品更偏绘画质感的画面相比，Morph Studio 的作品比较好地平衡了梵高元素和现实元素，光线层次非常丰富，特别是云海的流动细节，Pika 作品里的天空几乎是静止的。

最后，体验一下自然风景创作。

One early morning the sun slowly rose from the sea level and the waves gently touched the beach.

你可能会怀疑 Morph Studio 的作品是不是人类摄影师在自然条件下的真实拍摄。

Pika 生成的视频因为缺乏细腻的光影层次，海浪、沙滩显得平板一块，海浪拍打沙滩的动作比较呆板。

除了高分辨率带来的震撼体验，同样的 prompt 生成视频（比如动物、建筑、人物和自然风景主题），对手多少会在某些生成任务中“失手”，Morph Studio 的发挥相对更稳定一些，corner case 相对少一些，能更准确预测用户意图。

从一开始，这家初创公司对文生视频的理解就是，视频要能非常精准地描述用户输入，所有优化工作也是朝着这个方向在走。Morph Studio 的模型结构对文字意图理解比较深刻，这次更新做了一些结构上的改变，还特地对一些数据做了更详尽的标注。

除了比较好的文本理解能力，画面的细节处理并未被高分辨率输出难倒。事实上，模型更新后，画面动作内容更丰富，这也反应在我们用 Morph Studio 生成的作品中。

“带珍珠耳环的女孩”头部动作时，耳环也在微微晃动；涉及骑马之类比较复杂动作的画面也更流畅连贯和有逻辑，手部动作的输出也不错。

1080P 意味着模型要处理更多的像素，给细节生成带来更大的挑战，但从结果看，画面不但没有拉垮掉，反而因为丰富的层次细节而更有表现力。

这是我们用模型生成的一组自然景观，既有壮观的巨浪和火山喷发，也有花朵的细腻特写。

高分辨率输出给用户带来更好的视觉享受，但也拉长了模型输出的时间，影响到体验。

Morph Studio 现在生成速度为 3 分半生成 1080p 视频，和 Pika 生成 720P 的视频速度一样。初创公司算力资源有限，Morph Studio 一直保持 SOTA，实属不易。

另外，视频风格上，除了电影写实，Morph Studio 模型也支持漫画、3D 动画等常见风格。

Morph Studio 专注的 text-to-video 技术，被视为 AI 行业竞赛的下一个阶段。

“即时视频可能代表 AI 技术的下一次飞跃，”《纽约时报》在一篇科技报道的标题中称，并认为它将与网络浏览器、iPhone 一样重要。

2022 年 9 月，Meta 的机器学习工程师团队推出了一款名为 Make-A-Video 的新系统，用户输入对场景的粗略描述，系统就会生成一个对应的短视频。

2022 年 11 月，清华大学和北京人工智能研究院（ BAAI ）的研究人员也发布了 CogVideo。

当时，这些模型生成的视频，除了模糊（比如 CogVideo 生成的视频分辨率只有 480 x 480 ），画面也比较失真，还存在许多技术限制。但它们仍然代表了 AI 内容生成领域的重大发展。

表面上看，视频只是一连串的帧（静止的图像）以一种给人运动错觉的方式组合在一起。然而，保证一系列图像在时间、空间上的一致性，难度要大得多。

扩散模型的出现加速了技术的进化。研究人员尝试将扩散模型推广到其他领域（如音频、3D 和视频），视频合成技术取得显著进步。

基于扩散模型的技术主要是让神经网络通过梳理数海量规模的图像、视频和文字说明，自动学习一些模式。当你输入内容需求时，这个神经网络会生成一个列表，囊括所有它认为创建图像可能用到的特征（比如猫耳朵的轮廓、手机的边缘）。

然后，第二个神经网络（也就是扩散模型）负责创建图像并生成这些特征所需要的像素，并将像素转换为连贯的图像。

通过分析数以千计的视频，AI 可以学会以类似的连贯方式将许多静止图像串在一起。关键在于要训练一个能真正理解每一帧之间关系和一致性的模型。

“这是我们在过去一百年中建立的最令人印象深刻的技术之一，” Runway CEO Cristóbal Valenzuela 曾对媒体表示，“你需要让人们真正使用它。”

2023 年被一些业内人士视为视频合成的突破之年。1 月还不见公开的 text-to-video 模型，一年行将结束之际已经有几十个类似产品和数百万用户。

a16z合伙人Justine Moore在社交平台上分享的文生视频模型的时间轴，我们可以从中看到除了大厂还有很多创业公司，另外，技术迭代的速度非常快。

目前的 AI 文生视频，并没有形成类似 LLM 统一明确的技术范式，关于怎样生成稳定的视频，业界还处于探索阶段。但研究人员相信，当用越来越多的数据训练他们的系统时，这些缺陷都能消除。最终，这项技术会使创建视频像写句子一样简单。

国内一位资深的 AI 行业投资人告诉我们，文生视频技术的几篇最重要的论文都是 2022 年 7-8 月出来的，类比文生图的产业化进程，这项技术临近产业化的节点会出现在一年后，也就是 2023 年 7-8 月。

整个视频技术的发展特别快，技术越来越成熟，这位投资人士说，根据之前在 GAN 领域的投资经验，他们预测未来半年到 1 年会是 text-to-video 技术的产品化时期。

Morph 团队汇集了视频生成领域最优秀的年轻研究者们，经过过去一年日以继夜地密集研发，创始人徐怀哲与联合创始人李峰、殷子欣、赵世豪、刘少腾等核心技术骨干一起，攻克了 AI 视频生成难题。

除了技术团队外，Morph Studio 最近也加强了其产品团队的实力，猫眼电影签约制作人、上海国际电影节评委，前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。

海辛表示，Morph Studio 在技术研究上在整个行业里都占据着领先的位置；团队扁平、沟通效率和执行力都特别高；每位成员都对行业充满热情。她最大的梦想曾是加入一个动画公司。AI 时代来临后，她很快意识到，未来的动画行业将会发生变革，过去数十年动画底座是 3D 引擎，很快将迎来全新的 AI 引擎时代。未来的皮克斯会在一家 AI 公司中诞生。而 Morph 就是她的选择。

创始人徐怀哲表示，Morph 正在积极布局 AI 视频赛道，我们立志于做 AI 视频时代的 Super App，为用户实现梦境。

2024 年，这个赛道会迎来自己的 Midjourney 时刻，他补充说。

PS: 体会原汁原味的免费1080P视频生成乐趣，请移步至：

https://discord.com/invite/VVqS8QnBkA

责任编辑：张燕妮来源：机器之心

视频模型