来自 科技2025-06-09 08:30:59
【导语】视频生成大模型领域竞争激烈,商业化探索仍面临挑战过去一年,视频生成大模型领域迎来了爆发式增长,众多企业纷纷推出自家产品,行业竞争愈发激烈。然而,在探索商业化的道路上,众多创业者却遭遇了困境。尽管技术在不断进步,但离(lí)真(zhēn)正(zhèng)的(de)商(shāng)业(yè)应(yīng)用(yòng)仍(réng)有(yǒu)一(yī)段(duàn)距(jù)离(lí)。近(jìn)日(rì),在(zài)北(běi)京(jīng)智(zhì)源(yuán)大(dà)会(huì)大(dà)模(mó)型(xíng)产(chǎn)业(yè)CEO论坛上,多位行业领袖就视频生成模型的商业化困境和技术瓶颈展开了深入探讨,为未来的发展指明了方向。

过去一年,是视频生成大模型领域众声喧哗的一年,年初Sora引爆全场,随后国内众多企业也都推出了自己的产品。行业竞争愈发激烈,能够成功“跑通”的路径也变得更加陡峭。探索如何实现商业化,成为众多视频(pín)生(shēng)成(chéng)创(chuàng)业(yè)者(zhě)的(de)困(kùn)境(jìng)。
在(zài)日(rì)前(qián)举(jǔ)行(xíng)的(de)第(dì)7届(jiè)北(běi)京(jīng)智(zhì)源(yuán)大(dà)会(huì)大(dà)模(mó)型(xíng)产(chǎn)业(yè)CEO论(lùn)坛(tán)上(shàng),智(zhì)象(xiàng)未(wèi)来(lái)创(chuàng)始(shǐ)人(rén)兼(jiān)CEO 梅(méi)涛(tāo)谈(tán)及(jí)当(dāng)前(qián)视(shì)频(pín)生成模型商业化过程中面临的困境时坦言:“(目前)大模型商业化仍不明显,离最后的商业应用还是差‘最后一公里’”。
智源研究院院长王仲远在论坛上指出,过去一年,大语言模型的推理能力和智能化水平有了明显的提升,然而,原生多模态技术尤其在文生视频、文生图方面仍处于探索期,距离“多模态的ChatGPT时刻”尚有距离。
澎湃科技(www.thepaper.cn)注意到,尽管近期国产大模型在多模态融合、生成质量等方面取得显著进展,也在训练效率、推理成本等关键指标上不断优化,但当前技术上仍存在一定瓶颈,而这一定程度上也影响了视频生成模型商业化路径。
Sand.AI(北京三代科技有限公司)的创始人兼CEO曹越认为,虽然Sora已经证明可以生成高质量视频,但从底层技术路径上看,当前主流的Diffusion模型和Transformer模型的训练方案有很大问题,核心问题在于不够“Scalable”(可扩展性)。
这一情况类似2018年语言模型的发展阶段,当时BERT模型刚推出时,在10B参数量级内表现良好,但一旦继续扩大模型规模,其性能提升却趋于停滞,难以获得预期收益。这也是后来ChatGPT能够后来居上的原因之一,它能够有效地扩展到千亿(1000B)级别,从而实现质的飞跃。
然而,在视频生成方向,Diffusion和Transformer目前虽然已能生成5秒左右的视频并呈现出不错的效果,但随着模型参数规模的扩大,则快速达到瓶颈。在现有技术框架下,如何实现真正可扩展的视频生成解决方案,仍是一个悬而未决的问题。
智象未来创始人兼CEO 梅涛指出,视频生(shēng)成(chéng)大(dà)模(mó)型(xíng)目(mù)前(qián)正(zhèng)处(chù)于(yú)ChatGPT2到(dào)ChatGPT3的(de)阶(jiē)段(duàn)。要(yào)解(jiě)决(jué)视(shì)频(pín)创(chuàng)作(zuò)的(de)问(wèn)题(tí),有(yǒu)三(sān)个(gè)关键点(diǎn)要(yào)达(dá)到(dào),即(jí)叙(xù)事(shì)性(xìng)、稳(wěn)定(dìng)性(xìng)和(hé)可(kě)控(kòng)性(xìng),这(zhè)是(shì)突(tū)破(pò)商(shāng)业(yè)化(huà)瓶(píng)颈(jǐng)的关键所在。
梅涛称,从2023年到2025年,这三年他对于商业化有不同阶段的思考。2023年,他认为模型就是产品,2024年觉得可以卖工具,但后来发现,工具的门槛比较高,即便用了特效的方式,也很难满足用户所有需求。
2025年,他再将产品升级,即不用关心如何做,工具只是降本增效的方法,关键在于用低成本、极高效率,创造极高价值。“我们希望直接把结果交付给用户,帮用户做增长,跟用户分佣,这种模式更贴近商业的本质。”
梅涛表示,无论是做视频生成还是大模型,最关键的挑战在于如何从技术能力出发,走到一个可持续、可闭环、有现金流的商业模型中去。如果无法实现这一点,终究只能停留在“技术提供者”的角色。在这一过程中,梅涛说他得出一个清晰的判断,无论模型底座能力多强,离真正的商业应用仍然差“最后一公里”。下一步,他的策略不仅是向用户交付结果,还将进一步构建完整生态。比如,签约大量具备流量优势的内容创作者(UP主)、MCN机构,搭建自有账号体系,从而推动整个生态系统的运转。
“最终我们可能进入电商领域,转向卖货,构建起一个稳定、有现金流支撑的业务闭环。”梅涛说。
曹越认为,视频生成模型在不同的发展阶段,会展现出完全不同的产品契合度(PMF)。在早期阶段,尽管生成效果还不完美,甚至需要频繁“抽卡”才能生成一个可用片段,但与传统拍摄相比,其成本优势依然显著。他预测,视频生成方向在未来三到五年内会大有可为。