DeepSeek何以成为“送给世界的礼物”
2025年02月10日  来源:齐鲁晚报
【PDF版】
     李梦瑶 报道       

  自从DeepSeek R1宣布开源后,多家国内外科技企业纷纷宣布接入,供开发者和用户调用。
  这个搅动全球AI市场的“鲇鱼”,到底“牛”在哪里,又对我们的生活有何影响?
各行各业纷纷
接入DeepSeek

  中国云平台正集中上线DeepSeek。
  2月5日,节后首个工作日,京东云正式上线DeepSeek的R1和V3模型,用户可根据需求选择公有云或专混私有化实例部署。开发者和企业可以借助言犀AI开发计算平台的“AI资产市场”一键部署模型,而那些注重数据安全的客户,将享受京东云vGPUAI算力平台提供的私有化服务。
  同日,大众新闻客户端正式宣布接入全球领先的大语言模型DeepSeek R1,成为国内首个深度整合该技术的新闻资讯平台。
  腾讯的云技术也“不甘示弱”,早在2月4日,腾讯云TI平台推出了丰富的“开发者大礼包”,包含DeepSeek全系模型的限免体验,用户可轻松无阻地参与其中。与此同时,字节跳动旗下的火山引擎让用户通过火山引擎机器学习平台veMLP及火山方舟享受深度学习新体验。
  阿里云也同一天宣布已支持一键部署DeepSeek-V3、DeepSeek-R1;百度智能云也通过千帆平台上线了这两款模型,并推出限时低价方案,快速引入用户。
  这波热潮并不限于国内,2月2日前后,海内外多家知名科技公司也都纷纷接入DeepSeek,包括亚马逊、微软和英伟达等。
  一位业内资深人士表示,随着训练成本降低、技术成熟以及开源,大语言模型将愈发成为一种普通产品,各行各业都将迎来更为智能化的升级。
机器“教会”人类
如何思考

  DeepSeek的热度起源于DeepSeek R1的发布。
  1月20日晚间,中国“名不见经传”的AI初创企业深度求索公司(DeepSeek)正式发布推理大模型DeepSeek R1。因其可比肩OpenAIo1的性能、极低的服务价格,以及代码和模型架构的完全开源,成了搅动全球AI市场的“鲇鱼”。
  随着“深度思考”和“联网搜索”功能上线,DeepSeek同时冲上了中国、美国区AppStore免费榜第一。其网页版甚至出现了短时间的宕机。
  “有温度”是很多人使用下来的评价。DeepSeek R1能够提供“情绪价值”,甚至其一些关于“人生问题”上的回答甚至登上了热搜,被网友称为独属于“中文”大模型的浪漫。
  在DeepSeek内点开R1提问后,模型总会先展示出它的一些“碎碎念”,然后再给出答案。“碎碎念”就是它的推理和思考过程,甚至在遇到困惑时会说“等等”来中断自己的思路。而同样的问题问OpenAI-O1,只会给用户展示出原始思维过程的摘要。
  从奥数题到明星八卦,人类第一次如此清晰地目睹“机器如何思考”,还特别会“融会贯通”。不少网友评价:仿佛与一个“现实的人”在对话。
  这种“透明化推理”让用户不仅能获得答案,还能观察AI的思考逻辑。有网友表示,可以反向学习DeepSeek如何拆解复杂问题,机器“教会”人类如何思考。
  一位AI领域的从业人士表示,过去,大模型的训练过程通常是先训练出一个基座模型,然后对它进行监督微调,接下来进行强化学习训练。这位人士比喻,“而DeepSeek R1的训练方式相当于一道范题都不给孩子看,直接送上考场,然后通过对每个问题不同答案得到的分数反馈,让模型自己掌握解题思路。”
  没有监督学习,这就意味着它不需要大量的人工标注数据,也就意味着节约成本,就能显著提升性能;在实际开发过程中,开发者可以省去大量数据准备的时间,以更快的速度推向市场。
用创新打破AI研发
“烧钱”定式

  DeepSeek的中文名是“深度求索”,为量化巨头幻方量化的子公司。这是一家“隐形”的AI巨头,拥有1万枚英伟达A100芯片。
  成立仅一年多时间,2024年5月,DeepSeek就发布一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比,推理成本每百万token仅1块钱。
  然而,仅又过了半年多,12月26日,全新系列模型DeepSeek V3首个版本上线并同步开源,在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
  最让海外AI界震惊的是,在性能突出的同时,该模型的训练成本大幅降低。DeepSeek新开源模型仅花费了560万美元进行训练,成本相当于GPT-4o的十分之一。
  资深人士分析称,DeepSeek训练成本低,一个重要原因是使用了数据蒸馏技术(Distillation),通过已有的高质量模型来合成少量高质量数据,并作为新模型的训练数据。同时创新使用了FP8、MLA(多头潜在注意力)和MoE(利用混合专家架构)三种技术。
  相较于其他模型使用的MoE(利用混合专家架构)架构,DeepSeek每次只需要占用很小比例的子集专家参数就可以完成计算。MLA(多头潜在注意力)机制则能显著降低推理过程中内存占用开销。
  正如其开发者梁文锋在接受媒体采访时表示,DeepSeek选择“不做垂类和应用,而是做研究,做探索”“做最难的事”“解决世界上最难的问题”。
迈向全社会分享的
普遍智能

  DeepSeek得到如此高的关注度,还有一个原因就是“开源”。
  过去,用户想使用推理模型,例如OpenAI-o1,需要每个月20美金至200美金的会员,而在DeepSeek R1上,这些都是免费的。对于开发者来说,如果想接入DeepSeek服务数据,每百万token也是“白菜价”。
  神思电子首席科学家闵万里表示,AI要想发展就得需要算力,由于算力所需投资规模巨大,这是大多中小科技企业的“痛点”,它们对低成本的人工智能系统的需求更为迫切。而DeepSeek就应运而生。
  “看到这一点是很欣喜的,大部分行业垂直模型是基于通用大模型衍生的,未来,越来越多的行业垂直模型接入开源的DeepSeek,能够进一步加速AI在各行各业的普及。”齐鲁文化大模型研发团队负责人、齐鲁晚报·齐鲁壹点技术总监宋耀说。
  据悉,齐鲁晚报·齐鲁壹点正在加速布局数字文化产业,其开发的齐鲁文化大模型是山东省数字文化领域的核心项目,旨在通过数字技术整合全省文化资源,构建文化领域的垂直大模型。
  “DeepSeek可以理解为一个通用大模型。通用大模型如同‘地基’,有不同的训练语料,就可以搭建不同的‘房子’”。宋耀表示,“在DeepSeek的基础上,可以提升齐鲁文化大模型的推理能力和训练效率;从更大的层面来说,将会推动中国行业垂直模型的发展,AI将成为新的生产力。”
  北京智源人工智能研究院副院长兼总工程师林咏华表示,deepSeek的开源让国内AI企业“抱团”,一起建设起国内的技术生态。而对于普通人而言,AI的到来,让人们实现了平等获取知识的机会,信息平权时代就要到来。
  正如梁文锋曾在接受媒体采访时表示,“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”DeepSeek将是“送给世界的礼物”。

本稿件所含文字、图片和音视频资料,版权均属齐鲁晚报所有,任何媒体、网站或个人未经授权不得转载,违者将依法追究责任。
网友为此稿件打分的平均分是:
齐鲁晚报多媒体数字版
按日期查阅
© 版权所有 齐鲁晚报
华光照排公司 提供技术服务