AI视频生成狂卷！4人小团队造出Sora竞品，耗费数千块GPU，已开放公测-飒生活的专栏

AI视频生成狂卷！4人小团队造出Sora竞品，耗费数千块GPU，已开放公测

2024-08-23 07:42:46栏目：默认栏目 IP属地：IP未知

智东西8月22日消息，据VentureBeat 8月20日报道，AI初创公司Hotshot的同名文生视频模型“Hotshot”开放公测，用户可以访问Hotshot.co官网使用该模型，现阶段每人每天有两次免费创作机会。

Hotshot模型由4人小团队用数千块GPU训练而成，可以生成10秒以内不同主题的视频，耗时短、清晰度高、操作界面简洁。与主流的AI文生视频模型相比，Hotshot公测版兼顾视频生成效率和稳定性的同时，视频风格更丰富，生态也更加开放，可生成无水印视频。

▲可用Hotshot生成风格多样的视频（图源：Hotshot）

Hotshot成立于2023年，联合创始人为Aakash Sastry、John Mullan和Duncan Crawbuck。这三位公司创始人已有11年的消费级应用开发经验，并从Lachy Groom、Alexis Ohanian、SV Angel等人那里获得了资金支持。

体验地址：https://hotshot.co/

一、最长10秒，清晰度720p，可定制动漫效果

Hotshot文生视频模型是一款Transformer扩散模型，其最新版本可根据文字描述生成一段最长10秒、清晰度为720p的视频。

例如，在Hotshot中输入“柯基坐在学校教室里”，我们可以得到，两只毛发分明顺滑的柯基，身穿不同花色、样式的衣服，坐在木色椅子上东张西望，柯基身后是写有粉笔字的黑板，而黑板旁有一个陈列地球仪等教具的展示柜，整体拍摄视角不断推进的一段视频。

除了模拟真实的人物、场景、风景，用户还可以用Hotshot制作动漫、逐帧动画、特效等风格化视频。

Hotshot生成的一段视频中，一位金发年轻男子，身穿蓝色衬衫和深色裤子，坐在客厅的黄色沙发上，玩着手持电子游戏，客厅布置了绿植、挂画。视频画面配色鲜艳、笔触粗犷，呈现出50年代的复古漫画风格。

▲Hotshot可以风格化处理视频（图源：Hotshot）

二、4个人耗时4个月，投入6亿段素材，花费几千块GPU

这样一个“类Sora”的文生视频模型，Hotshot仅靠团队4人，耗时4个月，便完成了该模型的训练工作。

据Hotshot介绍，最新版的文生视频模型在训练中投入了6亿段视频及音频素材、几千块GPU，高强度的模型训练常常导致NVIDIA H100 GPU出现故障，“机房差点着火”。为了让模型不偏离预期方向，团队成员一个月都没有休息，轮流监控训练结果。

3位创始人和新成员Chaitu Aluru还开发了一个新的自动编码器，在“空间”和“时间”上压缩视频内容，而非折损视频质量和相关数据，从而更高效地训练长序列视频。

三、过去一年多，Hotshot模型3次升级换代

Hotshot曾推出过AI文生图应用和两代AI文生视频模型，可惜未能激起较大的水花。

去年，Hotshot上线了同名消费级AI文生图应用，用户可以免费用Hotshot生成和修改照片，但该应用可能已被下架。

后续Hotshot推出了AI文生视频模型Hotshot-XL，并开源。该模型可以生成时长1秒，帧率8fps的视频。当时，Hotshot-XL的月活用户超2万人次。Hotshot Act-One则是Hotshot-XL的升级版，拓展了AI视频生成的时长上限。Hotshot Act-One模型可制作时长3秒，帧率同为8fps的视频。

Hotshot联合创始人Sastry在社交媒体X的帖子中写道，Hotshot是“目前最先进的公开模型”，十多年以来，我们首次能够为用户提供“强大且新颖的”AI文生视频功能，而这仅仅是一个开始。

结语：AI文生视频模型很卷，但还没有绝对的赢家

在Sastry看来，未来一年内，YouTube将被多模态生成式AI作品“刷屏”，AI文生图、文生视频、文生音频、图生视频等创作方式，将成为数字媒体上的常态。

市面上AI视频生成模型和应用的竞争也愈发激烈。AI视频创企Runway ML的Gen-3 Alpha Turbo、AI大模型独角兽OpenAI尚未公开的Sora、3D建模与视觉AI公司Luma的Dream Machine等AI视频生成模型，以及AI视频创企Pika Labs的Pika AI视频生成应用，都有着较高的关注度。

与竞争对手相比，Hotshot虽然文本还原度较高、视频生成速度较快，但现阶段的视频生成效果，在质量、细节和分辨率上都差强人意。网友用Hotshot模型制作的视频，不少存在手部、腿部重影，物品悬空、动作逻辑错误、说话神态、口型单一等较为明显的漏洞。

来源: 智东西