爱诗科技,一家AI视频创业公司的生存哲学

“你还是回去吧,大模型在中国没有机会。”

2023年刚创业,爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。

但两年时间过去,两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是2024年OpenAI 发布Sora爆火,再到今年被定义为AI视频“商业化元年”,AI视频赛道融资的速度开始加快。

两周前(9月10日),爱诗科技拿下了AI视频赛道单轮最高融资6000万美元(约合4.3亿元人民币),更多好消息开始被人们注意到,包括突破1亿的全球用户、目前收入能够覆盖绝大部分支出。种种迹象表明,爱诗科技已经解决了最难的生存问题,开始瞄准大厂做下一步规划。

熬过第一个生死存亡的节点,对于爱诗科技来说只是个开始,如何和资源丰厚、有应用场景的可灵、即梦们掰手腕,才是一场更难打的仗。

利好小白用户

爱诗科技的破圈突围

这笔融资,堪称爱诗科技的“及时雨”。

9月10日,爱诗科技完成6000万美元(约合4.3亿元人民币)B轮融资,该轮融资由阿里领投,达晨财智、深创投、北京市人工智能产业投资基金、湖南电广传媒、巨人网络和Antler等投资方跟投。

能拿到这笔投资,一定程度上,是因为爱诗科技的产品已经被市场广泛认可。

在宣布B轮融资的前一个月,爱诗科技放出了一个消息,其产品目前全球用户数量突破一亿,对比3个月前,这个数字还是6000万。也是在6月,爱诗科技的AI视频产品Pixverse的国内版“拍我AI”在国内上线。

尤其在今年,整个AI视频赛道的用户基本盘正在高速增长。以快手可灵AI为例,截至7月底,可灵AI的用户数超过4500万,同样比三个月前的2200万翻了一番。

被市场认可、拿到融资,爱诗科技是怎么做到的?靠的是贴近用户的产品设计。

爱诗科技的模型优化,核心在于怎么让用户能够真地用起来,并且用得顺手。

以今年8月爱诗科技更新的V5版本模型为例,其重点就放在了用户使用体验的改进上。

比起其他厂商,爱诗科技的突出优势就是快。从模型生成速度来说,V5依然保持着生成视频速度快的优势。比如,当光锥智能让它生成一个“小猫跳水”的AI视频,它在20秒以内就给出了一版,而同类产品可能要花几分钟左右。

从生成质量来说,爱诗科技业也达到了商业化的标准质量,不过也优缺点并存。

V5在动效的真实性上的效果只能算是及格水平,但在用户意图的拆解上表现更加突出。

以猫咪落水的生成效果对比,在猫咪入水后的水花效果和飞起运动的情况来看,存在质感不够逼真的问题。而快手可灵AI的落水效果更自然,却没有理解“英短猫”和“跳水”的关键词,生成的画面和用户需求有一定差距。

此外,瞄准大众创造者的情况下,爱诗科技在产品设计上多了一些巧思,比如专门为小白用户做了智能体,让没有基础的用户也能轻松做出同款视频。

目前,爱诗科技在拍我AI的智能体广场中放入了大量模版,只需要用户上传照片并根据提示操作,就能生成同款视频。比如上传自己的照片、并写上一个名人,就能得到你和偶像合拍的视频。和过往需要调整比例、首尾帧、写好画面分镜等繁琐操作相比,智能体的介入降低了用户的使用门槛。

图片

不过在使用体验上,目前模版还不够尽善尽美,出现了识别对象错误的问题。

实际测试中,光锥智能上传了OpenAI前首席科学家Ilya的照片,要求其做一个和Sam Altman合拍的视频。可以看到人物主体一致性保持得很不错,动起来的效果也足够逼真,只是可惜智能体找错了Sam Altman的照片。

整体来说,爱诗科技的模型生成水平已经达到了面向C端用户商业化的标准,但部分生成动效的真实性、运镜效果等细节的表现还有待优化。

不过,相对于模型上的一些小优势,在产品上的“视频模版”爆款玩法才是真正让这家公司破圈的功臣。

在产品层面,爱诗科技热衷于靠各种视频特效模版实现破圈,再靠模版在社交媒体平台上的传播来吸引更多用户使用。

“普通人不需要输入Prompt,只需要上传一张图片,选好模版就能达到100% 的成功率。”王长虎这样评价视频模版的出现,“这是真的让普通人玩起来的时刻,我们认为这是视频生成的 ChatGPT 时刻。”

出身于字节跳动的王长虎,似乎深谙爆款的运营之道。

图片

不过,靠爆款拉动应用,爱诗科技不是第一个,也不是最后一个。

最近,谷歌Nano Banana模型掀起的“手办照片”特效就是一个风靡海内外的爆款模版。就在9月15日,谷歌旗下的Gemini的App排名甚至超过了ChatGPT,登上了美国App Store免费榜单的第一

有限资源

靠跑通商业化“自救”

作为AI视频生成赛道创业第一波玩家,爱诗科技的成名其实够早。

从2024年1月,这家公司拿出了首个视频生成模型PixVerse V1版本,其发布时间早了Sora一个月,并在上线的30天实现破百万访问量。虽然和RunWay、Pika等海外产品同期,但苦于国内当时不看好AI视频赛道,在国内知名度不足。

直到去年2月捧出视频生成模型Sora时,国内才开始热切关注AI视频生成赛道。

AI视频行业相对大语言模型,烧钱多、爆发晚,导致每一个创业玩家只能在相对有限的资源里艰难求生。

转向国内,AI视频赛道的入局者们来得更晚,快手和MiniMax先后放出的视频生成模型,但轻易抢走了风头。去年6月,快手捧出内部研发的视频生成模型可灵1.0,MiniMax也在去年9月发布海螺AI。

为什么这段时间,快手可灵和MiniMax的海螺AI成了后起之秀?原因是爱诗的V1、V2版本,在抽卡效果和视频质量上表现不够好。

毕竟,爱诗科技当时能拿到的资源非常有限。

“早些年,有些钱我们没有拿。”王长虎说,“但回头看,我们应该多储备一些资金,尽可能地去拿钱,更早把模型做出来。”

王长虎回忆起来也难免后悔,他也曾透露,最早的时候,爱诗科技只有百卡储备,后来拿到新一轮融资才升级到千卡级别。

在掰着手指头花钱的情况下,选择比努力可能更重要。

字节出身的王长虎,曾在AI视频团队给抖音、今日头条等产品做技术支撑,在选择To B还是To C上,王长虎认为走To B路线在商业化上的稳定性不足。

“早期一些移动 App 也用过一些计算机视觉公司的 API,但这些 App 做得更大后,就开始用自建的。”王长虎说。

再从市场选择上,在海外对AI工具的认知和用户付费意愿更好的情况下,爱诗科技也选择了第一天就出海,这让这家公司在海外率先积累了一定用户量,打通变现也会更方便。

现在,当模型能力达到标准线的情况下,爱诗科技也迎来了自己的爆发节点。

这家公司推出的“毒液”模版成为了引爆流量的关键。这个模版于去年11月上线后,就在海外的TikTok等社交媒体上流行,变身特效视频被播放超过10亿次,甚至火到了国内。当时的小红书、闲鱼等平台不少用户甚至发帖找人花钱做同款特效视频。

“毒液”模版走红带来的热度,证明了一件事,即当模型生成的视频质量达到用户能接受的水平线,创业公司同样能和大厂们一起“卷爆款”。

有了初步的市场认可和用户数量,爱诗开始探索更多盈利渠道,比如继续打通to B业务。从今年1月,爱诗科技开始支持各行业的API和定制化视频生成,涵盖互联网、营销、电商等。

爱诗的发展,一定程度上体现了AI视频行业商业化的共性,在商业化前景不够明朗的情况下,B端和C端要两手抓。

同样是做视频生成,生数科技走的则是“先B后C”的路线。成立两年的时间里,生数科技有1年半都在琢磨落地问题。在今年的智源大会上,之前主攻B端的生数科技CEO骆怡航给出了“八大行业、三十大场景”的版图,其中,互联网、广告、电影、动漫的应用占到了8成。

当大家的竞争基本盘又回到了同一张桌子上,怎么看未来表现,就要看谁的商业化路线执行成果更漂亮。

“DeepSeek时刻”未至

AI视频赛道的路不好走

虽然爱诗科技已经初步取得市场认可,但面向未来,to C是一条更难走的路。

目前自带短视频产品的快手,在技术和场景的加成下,已经占据市场头部的位置。

快手Q2财报披露,可灵AI在第二季度收入达到2.5亿。据中金研报,以2025e ARR来测算,市占率快手可灵全球领先,其市占率约20%,而海螺、Pixverse、生数、即梦市占率均估算在4-5%区间。拥挤的AI视频赛道里,挤满了玩家。

图片

但相比大厂,爱诗科技的资源少得可怜。截至9月,爱诗科技累计融资仅在8亿元人民币左右,这笔钱实在太少了。

虽然快手并未披露可灵的研发成本,但AI视频模型前期投入的巨额训练成本就不会是一笔小数目,2.5亿的营收也只够其毛利上追平其推理成本。程一笑还在Q2财报电话会上表示,快手将在未来三年甚至更长时间进行更大规模研发投入。

“我们没有那样的机会。做一遍做错了就可能发展不起来了。因为只要做就会花很多钱,我们不像 OpenAI 那样不差钱。”

王长虎很明白,AI视频赛道的处境很紧张,越来越卷的赛道里,没有新一轮融资支撑、商业化没跑通的企业,将会提前出局。

为了抢用户,限时试用、积分赠送已经成了各家产品心照不宣的手段。就在手办特效走红的本月,爱诗科技也推出了不限积分的限时6天试用活动。

爱诗科技之所以有底气搞这个活动,就是通过最先出海+C端的策略,已经靠商业化变现保证先让自己活下去。据王长虎透露,目前公司产品的订阅收入已经覆盖成本。

爱诗的商业化策略一直都是很清晰,先聚焦C端,快速验证商业模式,凭借健康的ROI(投资回报率)吸引新的投资,再利用获得的资金投入技术研发,不断紧追大厂的步伐。

放长远看,各种竞争策略争奇斗艳,而当下,技术仍然是决定用户选择的关键因素。

谷歌最新发布的VEO3模型就是一个典型的例子,它不仅是一个能够生成高质量画面的视频模型,更是一个原生多模态大模型,能够在生成视频的同时,精准生成与之匹配的环境音效。在商业化探索上,国内厂商还没有推出可直接对标的原生多模态产品。

在视频训练数据来源、资源不同的情况下,虽然国内AI视频生成领域的玩家们有不同的优势领域,但这些差距还不够大。显而易见,AI视频还没有迎来自己的DeepSeek时刻。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平