当前位置:首页 > 情感 > 正文

DeepSeek:一场春晚

  • 情感
  • 2025-01-30 23:34:02
  • 5

DeepSeek:一场春晚

  文 | 清和 智本社社长 (先点赞-分享-推荐)

  大过年的,被DeepSeek闹得沸沸腾腾。

  这是一场刚到海里开会的浙大学霸创办的顶级量化基金开发的A股股民赞助的被称为国运级别的低成本高性能的国产大模型一举击溃英伟达股价刺破美股科技泡沫单挑美国硅谷震惊特朗普或引来联邦政府调查堪称美国斯普特尼克时刻的在中国蛇年春节上演的东西方顶尖技术对决大戏。

  说DeepSeek是一场春晚,并不是指它华而不实,而是说,这是一个中国方面乐见其成的情绪价值满满的故事,正如新年人人互道:新年好。

  很多人会在除夕夜看春晚,但看完后又免不了吐槽几句。DeepSeek这出新年大戏太完美,完美到让一些人冷静下来后不禁怀疑。一些社友在微信上问我怎么看。大年初二,我来公司加班简单地说两句。

  本文逻辑

  一、讨论两个问题

  二、对美股的影响

  三、中美技术竞赛

  01

  讨论两个问题

  先讨论两个问题。

  第一个问题:DeepSeek的技术是不是这么牛?

  这是一个首要的关键问题。但是,我不懂技术,也不懂技术测试,没办法正面回答。我看了一些技术文章说得也不清不楚,可能是DeepSeek目前披露的信息还太少。

  我下载了DeepSeek,问了几个我熟悉的问题:介绍公众号智本社,谁创立的?回答很糟糕,居然不知道是我创立的。同样的问题,Kimi的表现要出色得多。这个Seek不够Deep呀?

  后来,一些社友跟我说,社长可能没有联网。我不知道这个系统还要联网。然后,一个美国的小朋友把同样的问题输入DeepSeek,输出的结果让我很满意。

  这事只能说明我不懂测试,仍不知DeepSeek水平几何。

  接下来,我用常识去理解这个事情,没错,用常识就够了。

  根据现在披露的信息,DeepSeek最厉害之处是性价比极高:DeepSeek-V3的基准测试性能接近GPT-4,但其预训练成本约为557.6万美元,而GPT-4的训练成本成本高达7800万美元甚至是1亿美元,双方的成本至少是10倍的差距。

  DeepSeek不需要消耗大量英伟达昂贵的高性能芯片,其性能也能够接近GPT-4的水平,因此被称为“大模型界的拼多多”。其原因是,DeepSeek改进了算法。

  不过,有些人怀疑DeepSeek撒谎,难道Open AI和美国团队不会改进算法?其实,性价比极高是典型的中国故事,从制造业到技术产业皆如此。

  有人怀疑DeepSeek是“套壳”,认为是基于OpenAI的GPT企业版API做了一些二次封装和微调。美国官方对DeepSeek是否“偷窃”展开调查。这个估计不容易有结果,即便有结果也是来回扯皮。

  根据常识,美国团队在原创技术方面(0-1)天下第一,中国团队在技术应用方面(1-1000)尤其是在性价比上天下第一。

  所以,当美国研发出大模型后,中国团队跟进是很快的。你看,现在的硅谷AI公司,哪家没有华人工程师。没有华人工程师,他们的活谁干?

  但是,DeepSeek团队是怎么做到的?

  这是个迷。

  不过,DeepSeek R1发布文本的第二行提到一个被很多人忽略的技术,叫蒸馏技术。这个概念是 Geoffrey Hinton等在其论文《Distilling the Knowledge in a Neural Network》(2015)提出来的。

  什么意思?打个比方。上高中时,班里的学霸只学习了10年的数学,在考试时比学习了近60年数学的数学老师更强(同是150分,但速度更快)。没错,当时我们的数学老师就是退休返聘的60多岁的数学大牛,但满身武艺的数学老师怎么考不过学生呢?原因就是,学生用了蒸馏技术,迅速地从知识丰富的老师身上学到满足考试的数学知识、思维和技能,加上拳怕少壮,学生反而能在小领域(考试)比试中表现得更出色。这类书经济学中的“干中学”。

  但是,蒸馏技术有缺陷,最开始你可以蒸馏一个小模型出来,成本很低,性能很好,但是想要继续突破,做成真正的大模型,要投入很高的研发和训练成本。这就是DeepSeek后面的难题。就像一个考上大学的学霸,想要真正学好数学,还是要投入大量的时间。

  祛魅后,这个故事变成:美国AI在原创技术上依然天下无敌,中国在低成本计算应用层面迅速跟进,如今二者似乎直接竞争,但让子弹飞一会儿。

  第二个问题:是不是媒体炒作?

  这是毫无疑问的,但不能否定什么。

  这个春节大戏太完美,完美就是最大的破绽。刚刚在海里开完会的中国学霸单挑硅谷精英,带领量化私募四大天王之一幻方研发AI,在蛇年春节跟美国争夺技术主导权,以低成本高效能击溃英伟达股价、震撼美国,突破半导体技术“卡脖子”。

  这个故事有太多宏大叙事的元素,我们凭常识就能够判断媒体在其中扮演了重要角色。了解中国金融的人都知道,金融是吃资源饭的,任何一家顶级量化私募都不是一个学霸能够搞定的。了解中国媒体的人也知道,媒体是特殊行业,一类信息集中密集发布,不仅仅是平台算法发挥神力,更是背后的人在操作。

  不过,从中国方面来说,大多数人都乐于看到这故事的出现。中国官方肯定希望看到这样的团队和技术出来,同时希望把它提升到宣传层面。技术人喜欢看新东西,投资人喜欢看前景,还有一些投资人可以趁机做空英伟达。官方媒体有宣传可写,有广告费收入,自媒体人有话题有流量。

  我也希望看到这种事情发生。只是我不希望它是一个被宣传的故事,不希望它变成春晚,而是希望看到真实的故事,尽管这是不可能的。我更希望看到的是,AI应用落地,包括在量化交易上。

  有实力才能炒作,你看没有媒体炒作智本社。而且,有实力才能经得起炒作。后面这句话更为重要。顶级技术竞争,容不得半点虚假,如果在美国资本市场上,任何虚假很快就被做空者击穿,价格很快就会惩罚弄虚作假的行为。

  所以,我的态度是,中国有一些杰出的技术团队,如果做出不错的应用技术,让市场去评价,让价格去检验,让用户去体验,不要被宏大叙事所裹挟,要努力创造消费福利。

  02

  对美股的影响

  如果这是中国单方面炒作,那么人家美国人为啥配合你?

  你看,特朗普都震惊了,美国政府准备调查,英伟达不得不出来发声明,黄仁勋、马斯克、Open AI和微软一群硅谷大佬都出来说话。

  更重要的是,美股也配合。

  周一(27日),英伟达股价收盘暴跌16.86%,创下自2020年3月以来的最大跌幅,市值在一日之内蒸发了近6000亿美元。这成为美股历史上最大的单日市值蒸发案例。除了英伟达外,博通跌17.40%,AMD下滑6.35%,微软下跌2.14%。受半导体股冲击,当天纳指大跌3.07%。

  我们经常讲,价格不会骗人,尤其是美国资本市场的价格更不会骗人。那么,这是否能够说明DeepSeek一举击溃英伟达股价、挑战整个硅谷、刺破美股AI泡沫、让美国各界与投资人感到恐慌?

  一些投资美股的社友比较着急地问我:DeepSeek是否改变了美股走势?

  我的观点有四:

  第一,毫无疑问,DeepSeek在媒体上的表现,是导致英伟达以及半导体股价大跌的直接原因。

  逻辑上是这样的:DeepSeek的训练成本大幅度下降,对英伟达高性能芯片的依赖度大大降低,英伟达等半导体公司的短期营收被看空;隐含的问题是,美国科技公司在大模型方面的资本开支过高。

  第二,但是,DeepSeek不过是诱因,主要的问题还在英伟达和生成式AI自身上。

  自大模型爆发以来,生成式AI潜藏着一个让投资者担心的问题:到目前为止,大模型还没有出现一个杀手级的应用。

  当前,微软、谷歌等科技公司大规模采购英伟达芯片,推动英伟达的业绩和股价狂奔,实际上,这是投资者在不断地给AI输血。但是,如果终端市场上一直没能涌现一个杀手级应用,没能大幅提高生产率,没能产生经济效益,那么大型科技公司最终会放弃对算力的疯狂储备,而英伟达的“铲子”终有一天会卖不动。

  这个担忧就像悬在英伟达头上的达摩克利斯之剑,一旦英伟达股价涨势太猛,投资者会感觉它太贵了、泡沫太大了,一点风吹草动就较大幅度回调,近半年皆如此。更何况,这次DeepSeek所宣称的极高性价比,可谓直击英伟达的“软肋”。这就好比在野球场上一个光脚大叔碾压了一个装配齐全、身穿24号、跳投美如画的篮球小子。

  但是,英伟达的技术实力是毋庸置疑的,客观上来说,DeepSeek不是英伟达的竞争对手,而是英伟达的客户。如果DeepSeek真能如它所宣称的那样把成本降到这么低,那么DeepSeek实际上扩展了市场,促进了英伟达的业务,只是当前英伟达遭遇了杰文斯悖论(Jevons paradox)。

  微软首席执行官纳德拉就在社交媒体X上引用了杰文斯悖论(Jevons paradox)来解释。1865年,英国经济学家杰文斯在《煤炭问题》一文中提出,随着蒸汽机效率的提升,煤炭消耗量不降反增。

  如果DeepSeek把成本压低,短期内市场对低性能(类似于煤炭)半导体的需求增加,对英伟达高性能的采购会下降。

  第三,成本下降是大势所趋,DeepSeek等高性价比应用的出现,将扩展到整个内容式AI市场,长期对英伟达、半导体、人工智能产业以及美股AI板块都是利好的。

  为什么内容式AI在大模型诞生三年来都未能出现杀手级应用?

  最重要的原因是成本过高,尤其是算力成本。

  ChatGPT是一个革命性的产品,但它为什么不是一个杀手级应用?

  我一个朋友分析得有道理,他说,从应用的角度来看,ChatGPT是一个过时的产品,是互联网1.0时代的搜索产品。这个时代,用户获取信息的方式完全被算法控制,已经形成了算法推送、被动接收的习惯,用户不再是互联网1.0时代的精英用户,他们提不出几个好问题,甚至懒得提问。

  我的理解是,如果要产生杀手级应用,那么它一定是在垂直领域。ChatGPT是通用人工智能,就像是一个智力超群的数学天才,他的智力要产生经济价值,必须落到具体的领域,比如AI生文、绘图、制作视频、制作数字人、创作音乐、教授英文、实验分析、财务核算、市场预测、量化交易等等。

  垂直领域为什么没有产生杀手级应用?

  成本是拦路虎。目前,ChatGPT多数版本都未开源,垂直领域的公司没有能力自己开发大模型。大多数垂直行业的公司一不具备顶尖的技术力量,二无法承受技术失败的风险。而初创公司往往又不具备行业数据和行业专业能力。

  但是,幻方量化是特殊的,这家量化私募的规模很大、资金雄厚,背后定然有强力支持者。这家公司的创始人梁文锋又是技术背景出身,而且拥有一个怀揣技术理想的精英团队。2021年,幻方管理基金规模一度超过千亿元。2022年,幻方量化大力进攻AI,平均每天用近2000张GPU卡在跑科研,而不是在做量化交易。第二年,他们把DeepSeek独立出来运作。令人疑惑的是,DeepSeek拥有万卡集群算力,是大厂之外唯一拥有万张 A100 芯片的公司。在中国,只有腾讯、阿里等极少数公司有能力有动力囤积如此大规模的芯片和算力。

  可见,这不是一个简单的创业故事,可能是另外一个华为,其背后市场之外的力量是关键。

  不管是DeepSeek也好,还是通用AI也好,只要能够把算力成本降下来,并且对全世界开源,那么,很多垂直领域都可能出现杀手级应用。

  所以,性价比下降和开源推动垂直领域杀手级应用涌现,将是全球生成式AI的现金牛时代。

  第四,不管DeepSeek真正实力如何,都不会影响这轮美股的成长性,仍坚持之前的预测,2025年美股继续上涨,其中代表周期性的道琼斯指数比代表成长性的纳斯达克指数更稳定。

  美国经济正在摆脱2008年以来的低增长、低利率、低通胀陷阱,正在形成一轮新的景气周期,未来三年美股的走势基本上由经济周期决定。

  正如我之前预测的,2025年,美股整体上涨,代表周期性的道琼斯指数上涨,受AI影响的纳斯达克指数波动会大一些。你看,27日,纳斯达克指数大跌3.07%,道琼斯指数依然上涨0.65%。

  2025年,在配置策略上,纳斯达克指数和科技七巨头回撤时买入,切勿追高;同时,资金可以往道琼斯指数和周期性龙头股调配。拉长时间来看,未来3年,AI的商业化应用应该可以兑现,纳斯达克指数和科技七巨头能够跑赢道琼斯指数。

  当前,市场一直在怀疑AI泡沫风险,风险反而不大;当市场达成共识,形成美国经济景气周期和AI商业化兑现的预期,市场泡沫反而会快速地堆积。

  03

  中美技术竞赛

  中美技术竞赛,是当下正在发生、且未来十年将持续加剧的不可回避的主旋律。

  DeepSeek火爆中外媒体,中国民间喜欢看到本土学霸挑战美国硅谷高富帅,而美国总统特朗普借梯子上楼,趁机强化中美技术竞争形势。

  如果DeepSeek的低成本、高性价比是真实的,那么,中国低成本(生产制造与技术应用)与美国高技术之间的竞争,已经从制造业蔓延到最火热的AI领域。

  对美国来说,中国的产业竞争力到底是什么水平?

  美国人说的不客观,中国人说的也不清楚。国内有两种倾向:一是认为中国技术很强大,除了美国,其它国家都不用看,而且喜欢上升到意识形态的对抗上;二是认为中国技术很弱,拿苹果、微软和ChatGPT做对比。

  我的观点是,中国产业竞争力在国际上是“七七八八”,比上不足、比下有余,不要夸夸其谈,也不要妄自菲薄。

  美国在原创技术上,如芯片底层设计、大模型算法,是天下第一。而这个天下第一,是汇集天下英才而成。这源自其国家制度的吸引力。这也是美国最核心的竞争力。

  中国在产业链上,尤其是生产制造低成本和技术应用层面,是天下第一。不用怀疑,你去长三角、珠三角的工厂,去腾讯、阿里、联想这些大厂走一遍,然后去美国、日本、欧洲、越南、印度走一遍,不用深入调查,走马观花,就能够理解我说的话。

  中国最大的优势就是极其廉价的全产业链,为全球提供了30%多的产品。廉价全产业链的好处为新技术的落地提供了条件,即非常有利于技术应用。以手机为例,过去10年,苹果等智能手机不断迭代,除了操作系统等少部分顶尖技术外,大部分软件和硬件的应用技术的创新和落地都发生在中国。原因是全球手机产业链基本都在中国。

  在AI方面,中国拥有庞大的AI基础和工程师队伍,而且,很多工程师在美国顶尖高校毕业,在美国科技公司工作过,接触到全球最领先的技术。中国工程师在某些AI领域作出创新成果,其实并不意外。实际上,AI创新在硅谷华人工程师中每天都在涌现。

  假如这种产业格局是全球化竞争与比较优势选择的结果,这没多大的问题。但是,如今美国认为,这不是市场竞争的结果。

  这到底是市场竞争的结果,还是人为设计的?

  肯定是有市场的因素,中国劳动力人口多,工人愿意加班,等等。当然,也有明显的非市场因素。例如,要素价格均等化为什么没有发生?工人工资为什么没有快速上升?假如工人工资上升到一定水平,他们还愿意加班?又如,为什么大规模的贸易顺差长期存在?汇率机制为什么失灵?如果开放进口市场、外汇市场、金融市场,是否可以平抑贸易失衡?

  这些问题我认为是说得清楚的,但是没办法呈现出来,更没办法成为双方沟通的内容。于是,贸易摩擦与技术竞争不可避免地成为主旋律。

  特朗普的想法是简单粗暴,懒得区分市场因素、非市场因素,不管民间的因素还是官方的因素,看到贸易逆差就暴躁,看到DeepSeek就来劲。他习惯于用关税手段、制裁手段来施压。不仅是对中国,包括解决边境的非法移民问题,特朗普也是用关税手段来警告、惩罚邻国。

  这次DeepSeek震惊了美国,美国人没有想到,中国廉价竞争力这么快从制造业领域渗透到AI领域。而且,DeepSeek-R1基于MIT许可协议,允许全球开发者自由修改、使用、分发模型,这涉及到内容式AI的领导权之争。

  客观上来说,DeepSeek乃至中国整个AI都无法撼动美国的技术力量。但是,在中美竞争的当下,特朗普会借此机会强调来自中国的竞争,而且,可能会对半导体和AI技术领域实施更严厉的禁令。另外,特朗普政府已宣布投资5000亿美元建设AI基础设施“星际之门”,有人此项目比喻为当年美国的“星球大战”计划。

  过去,我可能会说,像DeepSeek这样的产品出来,不要过度宣传,尤其不要上升到中美竞争的内宣层面。如今信息非常通畅,这类内宣很快就进入美国社交媒体,最终或引来更多的冲突。

  同一个商业故事,在全球化时代,与在国家竞争时代,其结局是完全不同的。

  DeepSeek的出现,放在20年前,可能就像淘宝的出现,一个成本更低的应用在中国诞生,然后获得美国风险投资,经过几轮融资,最终赴美上市,美国投资者获利,中国创业者创富,中国消费者获得普遍实惠。这就是一个全球化的完美故事。但是,放到今天,DeepSeek可能面临来自两国竞争的风险,正如深陷困境的TikTok。

  实际上,两国竞争,很多无辜的人会被卷入。但是,这将不可避免地发生。

  大多数人没办法用历史的视角看待当下,当下的中国是美国从未见过的竞争对手,美国不好定义当下的中国,二者的竞争将以什么的方式展开,边界在哪里、竞争领域在哪,还在探索之中。

  所以,2025年,我们需要直面现实,看清大势,做好对冲,做好小事。

  从历史的角度来看,福山的时代已一去不复返,当然当下与未来也绝不是亨廷顿的时代。

有话要说...