APP STORE 视频模子精深的「隐变本钱」, 没东谈主告诉你

发布日期：2026-06-12 16:51 点击次数：76

APP STORE 视频模子精深的「隐变本钱」，没东谈主告诉你

对于 AI 烧钱，业内流传着多样令东谈驾驭屈词穷的数字。xAI 花了最先 10 亿好意思元建起 Colossus 超算集群；OpenAI 的月度算力账票据称高达数亿好意思元；Anthropic 最近几轮融资拿到的钱，在公众眼里简直还是和「GPU 时数」平直画上了等号。

环球谈的，简直都是算力。GPU 成了预计一家 AI 公司实力的通用货币，亦然每一篇融资报谈里最显眼的阿谁数字。

但最近，我听了一期 Latent Space 播客，采访对象是 xAI 前推敲员 Ethan He——Ethan 在 2025 年中加入 xAI 时，面对的是一个莫得基础纪律、没罕有据、莫得现成模子的白纸景况，然后用三个月时辰和一支小团队，从零搭建出了 Grok Imagine 视频生成系统，作念到了那时业内的一活水准。

在聊到大范畴视频模子的现实本钱时，他说了一组数字，让我已而意志到，这个行业可能一直在算错了账。

「光是存储这些视频和特征数据，每个月就要几百万好意思元——这还没算算力本钱。」

账单上的荫藏本钱

从零到一，运行现实一个视频大模子，需要花些许钱？先假定你的团队有矿，GPU 算力敷衍用。即便如斯，你可能依然低估了这件事的巨量本钱。

假定你要现实一个天下级的视频生成模子，去网上爬取了 10 亿条视频，每条平均 5MB——这还是是颠倒保守的猜测了。光这一项，你就需要 5PB（拍字节）的存储空间。按照 AWS S3 的订价，5PB 范例存储，每个月随意 10 万好意思元。

但这还仅仅原始视频。

在现实视频模子之前，业界通行的作念法是先用 VAE（变分自编码器）把视频压缩成「潜在空间」的特征向量——因为一段视频伸开成像素，可能有几十亿个 token，任何 Transformer 都处置不了，必须先压缩成模子能强健的贯串向量。

问题是，这份压缩后的特征数据，体积和原始视频颠倒，通常需要遥远存储，随时备用。

两项重复，数十 PB，每月存储费就最先 20 万好意思元。

然后是最出乎预料的那一项：数据收支费（egress/ingress）。

Ethan 说，从互联网下载 10 亿条视频的带宽用度，在 AWS 上比存储这些视频还贵。每次现实，数据都要从存储层拉到计较层跑一遍。视频模子的现实不像话语模子那样训完就罢了——要迭代，要调参，要测试不同的数据配比，比赛下注app2026世界杯中国官方下载每一次实验都意味着把全量数据再过一遍。实验跑得越多，这笔钱就乘以相应的倍数。

综划算下来，Ethan 的估算是，光是数据这一块，每个月就要几百万好意思元。GPU 的用度，还没运行计入。

这笔账APP STORE，我从来没见哪篇 AI 行业报谈细算过。

扛不住的带宽费

那像 xAI 这么自建 Colossus 数据中心的公司，是不是在存储和带宽上省了一大笔钱？

Ethan 的回话很平直：「固然，省了许多。」

2026FIFA世界杯赛事官网入口

这句话背后，藏着视频 AI 行业一个不太被计议的结构性微妙。

诳言语模子的现实数据是文本，体积相对轻量，并且现实完成之后，原始数据基本就完成了管事——你不需要反复拉取全量语料来作念推理或微调。但视频数据统统不同：体积是文本的几个数目级，并且每一次现实实验都要把全量数据完竣过一遍。

迭代速率越快，数据搬运的本钱就越高；而 Ethan 反复强调，迭代速率，恰正是视频模子研发中最要津的变量。

这就变成了一个相互咬合的困局：你需要快速迭代来普及模子质地，但快速迭代意味着通常搬运数据，而通常搬运数据在公有云上的账单会把你压垮。

Ethan 本东谈主的轨迹即是一个注脚。他在 NVIDIA 参与构建了 Cosmos 天下模子，作念着作念着意志到，ag·真人(官网)平台视频模子存在和话语模子肖似的「范畴定律」，还有很大的普及空间。他那时濒临的领受，名义看是「我需要更多 GPU」，但通常要津的一句话他没明说——他需要一个毋庸按 AWS 账单算钱的所在，来存放和搬运数据。这亦然他去 xAI 的根底原因之一，而 Colossus 给了他阿谁环境。

对于莫得自建基础纪律的团队来说，这笔账是怎样算的？每个月几百万好意思元的数据本钱，重复在 GPU 算力之上，意味着哪怕你有一流的算法团队，哪怕你募到了弥散的资金，只须你还在用公有云，你即是在用一个无底洞的账单跟敌手的自建机房竞走。

这谈门槛，不是一家有优秀算法的创业公司能靠「本领取胜」跨昔日的。

视频模子的护城河不是模子

这让我念念起一个真谛的对比。

在诳言语模子界限，「开源 vs 闭源」的竞争打得颠倒热烈，Llama 系列的出现让许多小团队也能在话语模子上打出有竞争力的家具，以致逼着 OpenAI 和 Anthropic 束缚压低 API 价钱。但在视频生成界限，咱们看到的形势天壤悬隔：能延续作念出顶尖视频模子的，基本惟有 Sora、Veo、可灵这些背靠巨量资源的团队，莫得一家是靠开源社区在车库里跑出来的。

许多东谈主把这归结为「数据和算力的差距」。这固然没错，但 Ethan 揭示的这组数字告诉咱们，问题比这更深：视频 AI 的基础纪律本钱，从一运行就把竞争的门槛，锁死在了小数数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之是以难以撼动，不单因为它们有更好的遐想，更因为一座新晶圆厂需要几百亿好意思元的前期进入，这谈门槛本人即是最佳的护城河。视频 AI 的护城河，即是那数十 PB 的数据基础纪律和每月飘浮产生的带宽账单。

Ethan 在播客里还补充了一个更深的延长：视频模子的「智能」，大部分其实来自背后的话语模子，而不是视频扩散模子本人。

视频扩散模子相对「愚钝」，它只会按照翰墨描摹照单全收地生成画面，描摹写「一只猫」，它就生成一只猫，站在纯白布景前，刻舟求剑——因为你莫得告诉它布景是什么、猫在作念什么。

果然强健用户意图、把「一只猫」扩写成一段缜密的镜头话语描摹的，是背后阿谁作念「领导词重写」的大型话语模子。Ethan 说，在 Cosmos 时代，他也曾用一个「怡悦的羊」作念测试：不进程领导词重写，生成出来的画面极其 CGI、毫无质感；加上重写之后，成果判若云泥——而通盘视频扩散模子本人，并莫得发生任何改造。

这意味着，决定一家公司在视频 AI 界限能走多远的，不仅仅视频模子的参数范畴，而是能否同期撑起话语模子和视频模子这两套基础纪律，并让它们灵验协同。

这是一场拼空洞膂力的竞赛。

下一个战场，早就被划好了

固然，行业也在摸索长进。

领导词重写的 Agent 化、让话语模子像「辅导官」一样鼎新多个视频生成器用、用 FFmpeg 这类传统软件处置中间门径——这些想法的共同逻辑是，把「话语模子的推理本钱」和「视频扩散模子的生成本钱」分层计较，让每一次视频生成的调用愈加精确，减少无效的计较和数据搬运。

Ethan 对「视频 Agent」的走向颠倒确定。他预计本年年底将出现一个拐点——当 Agent 生成的视频质地简略强健达到「可投放交易告白」的水准，企业才会果然怡悦为之买单，举座的本钱结构也会随之演变。

但有一丝不会变：谁掌执了数据的存储和流转，谁就掌执了这场游戏的着手。

在 AI 这个赛谈上，「果然的壁垒」每隔一段时辰就会交替一次。先是参数目，然后是现实数据范畴，然后是对王人本领，然后是推理服从。当今，视频 AI 正在揭示下一起壁垒——不是某种精巧的算法冲破，而是一份冷飕飕的基础纪律账单。

这笔账，从一运行就没盘算让统共东谈主都算得起。

友情链接：

stwc99.com备案号备案号:

技术支持:®ag RSS地图 HTML地图

APP STORE 视频模子精深的「隐变本钱」, 没东谈主告诉你

热点资讯

推荐资讯