来自 科技2025-05-14 08:00:45
【导语】DeepSeek一体机的火爆让模型平权成(chéng)为(wèi)现(xiàn)实(shí),但市场却鱼龙混杂。从“跑满血”到量化版本,从几万元到上百万元的价格差异,DeepSeek一体机市场乱象频现。业内人士指出,一体机市场仍处于早期阶段,市场秩序有待建立。本文将深入探讨DeepSeek一体机市场的现状、挑战以及未来发展趋势。

DeepSeek爆火让模型平权,今年以来,市面上的DeepSeek一体机可谓五花八门,有的声称可以“跑满血”,有的称可以运行70B、32B模型;有的是量化版本,有的是全精度版本;价格也是相差甚远,从几万元到上百万元都在售卖。
澎湃科技记者日前调查发现,目前DeepSeek一体机市场鱼龙混杂、打营销擦边球,降低性能就有套利空间,这也是为什么有人发现买回来的一体机变“笨”了。只要对模型进行量化或蒸馏,使用阉割版的模型,硬件资源就可以直接减半。“在这上面稍微 ‘偷’一点,价格就能看起来便宜很多,但实际使用体验会打折。”多位业内人士向澎湃科技表示,目前一体机市场存在较多信息差,行业处于早期阶段,市场秩序的建立仍需时间。
在业内人士看来,当前,大模型和业务场景结合仍处于试点阶段,DeepSeek一体机是一个过渡产品。至于后续发展,则取决于大模型能力的持续提升以及与企业业务的结合程度。
一体机很火
“现在一体机很火,每家都有自己的产品。”在4月底的第八届数字中国建设峰会的展台上,参展商蔺文强告诉澎湃科技,所有大模型都需要算力支持,算力来源无外乎向各大云厂商租赁和企业自建。如果数据不涉密,企业也不希望产生任何运维或硬件成本,上云就是一个好选择。出于对数据安全的考虑,一些业务无法上云,必须部署在本地,因此催生了DeepSeek一体机需求。
DeepSeek一体机预先安装软硬件,主打“开箱即用”,这就好比用户使用电脑做表格时,既可以选择使用Office,也可以选择使用WPS。从形态来看,有服务器级别的一体机,有台式机级别的一体机,也有体型较小的终端级别一体机。
蔺文强介绍,目前他所在的公司客户主要采购满血版DeepSeek一体机,譬如服装企业采购(gòu)DeepSeek一(yī)体(tǐ)机(jī)用(yòng)于(yú)记(jì)账(zhàng)和(hé)分(fēn)析(xī)消(xiāo)费(fèi)者(zhě)喜(xǐ)好(hǎo);基(jī)层(céng)乡(xiāng)镇(zhèn)会(huì)采购(gòu)非(fēi)满(mǎn)血(xuè)版(bǎn)一(yī)体(tǐ)机(jī),“一(yī)个(gè)办(bàn)公(gōng)室(shì)放(fàng)一(yī)排(pái),20并(bìng)发(fā)就(jiù)够(gòu)用(yòng)。我(wǒ)们(men)把(bǎ)服(fú)务(wu)预(yù)装(zhuāng)好(hǎo),就(jiù)像APP软件一样,一插电就能用。”
在另一家企业展台上,澎湃科技记者看到,其展示的DeepSeek一体机集成了安全防护软件。这些一体机面向政府、企业、高校等销售。展台工作人员介绍,以往闭源大模型使用成本高,DeepSeek开源让模型成本骤降为0,模型平权后只需采购硬件,一体机成本更低、需求增长。“目前一二三线厂商都在提供DeepSeek一体机。”该工作人员同样表示。大型计算中心承接训练需求,一体机本地化部署满足推理需求。服务器集群由多台服务器组成,而DeepSeek一体机是一种最简化配置。该企业生产的8卡满血版DeepSeek一体机的典型应用是每秒2000token、200个用户并发。“一所1万人的学校,并发峰值10%,意味着1000个学生使用,一台DeepSeek一体机就不够用了。我们目前做了好几个大项目,都是8-16台一体机供一两万名高校学生和老师使用。”
硅基流动联合创始人胡健告诉澎湃科技,DeepSeek的(de)能(néng)力得到了验证,企业对DeepSeek的认可度提高。考虑到私有化数据的安全性,企业若采用私有化集群使用DeepSeek,现阶段算力成本仍然较高。在尝鲜阶段,轻量级的一体机对企业而言是更好的选择。如果试水成功,未来再选择上云。
满血版未必真满血
企业针对DeepSeek大模型不同参数的版本推出了不同型号的机型。一台DeepSeek一体机的主要成本集中在GPU上。目前市面上的DeepSeek一体机价格有高有低。
有的展台上,一台供个人使用的满血版DeepSeek一体机价格8.98万元;有的展台上两台满血版671B一体机售价上百万元。
所谓满血版,即671B的DeepSeek模型。目前市面上的DeepSeek一体机中,有的称可以“跑满血”,有的称可以运行70B、32B模型;有的是量化版本,有的是全精度版本。
一位AI领域创业者对澎湃科技表示,年后DeepSeek一体机随着DeepSeek大模型的出圈而火爆,由于市场发展快,目前市场信息较为混乱。“有时候说的是跑DeepSeek,但实际可能只是一个70B或32B蒸馏之后的模型。有的70B模型本质上是拿着LLaMA模型,用DeepSeek生成的数据微调,最终说话效果和DeepSeek很像。32B的模型一般用通义千问的32B模型,结合DeepSeek生成的数据简单训练。”他表示,671B的模型和32B的模型对硬件的要求至少相差一个数量级,因此造成有的一体机只需几万元或几十万(wàn)元(yuán),而(ér)有(yǒu)的(de)价(jià)格(gé)需要上百万元。
与此同时,业界对于“满血”的标准并不统一。上述创业者介绍,有的满血版是模型量化后的满血。DeepSeek官方公布的参数精度是FP8,即8比特参数,一台8卡A100的一体机运行原版模型尚显吃力,需要两台才能流畅运行。一些厂家为了压低成本,缩小参数,量化为4比特参数,导致用户直接感受到模型变“笨”了。即便同样是8比特参数,其中也有玄机。有的8比特参数是指INT8而非FP8。为了实现FP8的效果,必须使用诸如BF16等更宽的数据类型,这就导致对硬件的要求更高,需要4台8卡一体机才能运行起来,一体机成本直接飙升到六七百万元。
“除非专业人士,大多数人对于性能本身没有很强的认知和理解力。”胡健同样表示,满血版一体机中,除了真正的原版模型,还存在量化版和蒸馏版,蒸馏版还可以分为32B、70B等。用千问模型和DeepSeek数据训练得到的蒸馏版也带有思维链,但智商比原版低。而将8比特变为4比特的量化版,其精度和性能同原版相比都有所下降,但强于蒸馏版。
一种过渡需求
“现阶段,用户想尝鲜,企业想卖一体机,就可能存在鱼龙混杂。”胡健表示,模型版本、并发数、吞吐量都决定了DeepSeek一体机在企业内的适用程度。
并发数是影响DeepSeek一体机使用性能的关键因素。胡健介绍,一些价格10万元的满血版一体机只能做到一个并发,仅供单个用户使用,首字延迟时间也长,影响使用体验。一个100人左右的企业使用一体机检索企业内部知识库,至少要保证10个并发。满血版DeepSeek一体机的并发数在200以内,“如果输入特别长,并发会进一步降低。比如输入一个长文档,再加上一段很长的输入,并发数就会下降。”
行云集成电路创始人兼CEO季宇则告诉澎湃科技,并发数越多,用户体验感越差。例如1000个并发之下,单个用户每秒只能生成5个token,这样的高并发是无意义的,因为输入输出速度也影响实际体验。业界公认的临界输出速度是(shì)20 token/秒(miǎo),这(zhè)也(yě)是(shì)DeepSeek官(guān)网(wǎng)提(tí)供(gōng)的(de)体(tǐ)验(yàn)。10 token/秒(miǎo)的(de)输(shū)出(chū)速(sù)度(dù)较(jiào)慢(màn),6 token/秒(miǎo)易(yì)使(shǐ)人(rén)焦(jiāo)急(jí)等(děng)待(dài)输(shū)出(chū)。但(dàn)输(shū)出(chū)速(sù)度慢,对硬件资源的要求就低。
多位业内人士对澎湃科技表示,当前DeepSeek一体机爆火甚至过热,但挑战在于持续维护升级,一体机的综合使用成本仍然高昂。一体机是一种过(guò)度(dù)需(xū)求(qiú),无(wú)法(fǎ)满(mǎn)足(zú)大(dà)规(guī)模(mó)使(shǐ)用(yòng),企(qǐ)业(yè)最(zuì)终(zhōng)还(hái)是(shì)会(huì)上(shàng)云(yún)。
胡(hú)健(jiàn)表(biǎo)示(shì),一(yī)旦(dàn)进(jìn)入(rù)私(sī)有(yǒu)化(huà)环(huán)境(jìng),出(chū)于(yú)安(ān)全考(kǎo)虑(lǜ),企(qǐ)业(yè)不(bù)会(huì)允(yǔn)许(xǔ)外(wài)部(bù)远(yuǎn)程(chéng)访(fǎng)问(wèn)私(sī)有(yǒu)数(shù)据(jù)和(hé)系(xì)统(tǒng)进(jìn)行(xíng)迭(dié)代(dài)升(shēng)级(jí)。对(duì)于(yú)销(xiāo)售(shòu)企(qǐ)业(yè)而(ér)言(yán),“卖(mài)一(yī)台(tái)几(jǐ)十(shí)万(wàn)元(yuán)的(de)一(yī)体(tǐ)机(jī),还(hái)要(yào)让(ràng)人(rén)带(dài)硬(yìng)盘(pán)飞(fēi)过(guò)去(qù)安(ān)装(zhuāng)升(shēng)级(jí),也(yě)不(bù)现(xiàn)实(shí)。”对于服务器级别的一体机而言,机房、电力、温度都要满足使用条件,这些改善成本分摊下来,使得一体机的“尝鲜价”并不低。
在胡健看来,当前大模型和业务场景结合仍处于试点阶段,DeepSeek一体机是一个过渡性产品。一台满血版DeepSeek一体机可支持100-200个并发(fā),可支持线上问答应用场景,“一旦真正和业务场景结合,一台一体机的并发完全不够。这时候要么建私有化机房,要么利用公有云或混合云解决高并发、多场景的使用问题。”对于DeepSeek一体机市场的可持续性,胡健认为,这取决于大模(mó)型(xíng)能(néng)力(lì)的(de)持(chí)续(xù)提(tí)升(shēng)以(yǐ)及(jí)与(yǔ)企(qǐ)业(yè)业(yè)务(wu)的(de)结(jié)合(hé)程(chéng)度(dù),一(yī)旦(dàn)与(yǔ)企(qǐ)业(yè)内(nèi)部(bù)流(liú)程(chéng)和(hé)应(yīng)用(yòng)打(dǎ)通(tōng),就(jiù)会(huì)出(chū)现(xiàn)混(hùn)合(hé)云(yún)或(huò)私(sī)有(yǒu)云(yún)模(mó)式(shì)。“如(rú)果(guǒ)打(dǎ)通速度快,那就转向上云,如果速度慢,一体机还会持续存在一段时间。”
“开箱即用”的条件
DeepSeek技术革新降低了AI大模型本地化部署的成本和门槛,促进了对于数据安全要求较高的央国企和金融类企业本地化部署DeepSeek等AI大模型。广发证券计算机首席分析师刘雪峰今年3月在研报中提到,随着DeepSeek本地化部署的广泛开展,算力一体机有望放量。预安装了DeepSeek大模型的算力一体机有望在各企业用户侧快速渗透。除了推出不同型号的机型,各家企业还搭载了用于模型微调、语料训练、应用开发的AI基础工具。
但CCF(中国计算机学会)数据发展委员会主任陆志鹏4月份表示,一些企业以为把DeepSeek模型部署到服务器上就是一体机,就可以“开箱即用”,结果客户采购后发现并没有达到说明书上的效果,反而引起法律纠纷。
胡健介绍,公文写作一体机、合同审核一体机等结合使用场景的DeepSeek一体机,其开箱即用的概率更高。对于脱离场景的一体机,开箱即用的是模型调用,但打通业务流程仍需接入和治理数据,整理数据库,二次开发或微调。
蔺文强建议企业要根据自身使用需求采购DeepSeek一体机,明确是追求极致的性能还是极致的性价比、是否有国产化需求、是否需要满血版的一体机,同时还要考虑服务调优的响应速度和支持方式,“采购一体机要考虑适不适合企业业务,如果不适合就需要调优,甚至需要二次训练。”
对于采购建议,新华三展台的工作人员表示,尽管当前一二三(sān)线(xiàn)厂(chǎng)商(shāng)都(dōu)在(zài)销(xiāo)售(shòu)一(yī)体(tǐ)机(jī),但(dàn)缺(quē)乏(fá)安(ān)全能(néng)力(lì)。“如(rú)果要有安全能力,就得找其他厂家再买一个服务器做开发和对接。”该工作人员表示,DeepSeek一体机要考虑数据安全问题。例如一些集团公司旗下多个子公司之间数据隔离,这些子公司之间甚至存在竞争关系,集团公司利用不同子公司的数据进行训练就需要保证数据安全。与此同时,由于硬件成本和软件开发成本有差异,一些小厂家的一体机价格反而更高。采购一体机时还需要考虑厂家的技术能力,尤其是当出现漏洞时能否及时提供修复服务。此外要识别DeepSeek版本,不同版本精度不同。
4月底,行云集成电路推出10万元级的满血版一体机,“很多客户在五一期间跟我们对接,现在也有一些客户已经下单。”季宇说,目前一体机行(xíng)业(yè)处(chù)于(yú)早(zǎo)期(qī)阶(jiē)段(duàn),市(shì)场(chǎng)秩(zhì)序(xù)的(de)建(jiàn)立(lì)仍(réng)需(xū)时(shí)间(jiān)。如(rú)果(guǒ)能(néng)够(gòu)降(jiàng)低(dī)新(xīn)鲜(xiān)事(shì)物的成本,就可以降低试错成本,扩大体验覆盖面,让行业成长起来。“相对于上百万元的机器来讲, 10万元的价位已经便宜了很多,但实际上还是比较贵,我们希望能持续降低价格,让大家能够低成本体验大模型带来的价值。”