DeepSeek AI 公司专题详解

Claude Code 学习笔记

分类:AI 公司研究 / 大语言模型

核心主题:DeepSeek(深度求索)公司技术全貌

主要内容:全面梳理 DeepSeek 公司的发展历程、核心模型架构创新(MoE)、开源策略、API 定价优势、竞品对比及行业影响

关键词:DeepSeek, 深度求索, DeepSeek-R1, DeepSeek-V3, MoE, 混合专家模型, 开源大模型, 推理模型, AI公司, 幻方量化, 大语言模型

一、DeepSeek 公司概述

1.1 创立背景

DeepSeek(中文名:深度求索)是一家专注于人工智能基础研究与开发的中国科技公司,由知名量化投资机构幻方量化(High-Flyer Quant)于2023年孵化创立。公司总部位于中国杭州,致力于开发前沿的大语言模型(LLM)和人工智能技术。

DeepSeek 的诞生源于幻方量化在 AI 领域的深厚积累。幻方量化作为中国顶尖的量化对冲基金之一,在 AI 技术研发方面投入巨资,拥有强大的计算资源和工程团队。2023年,随着大语言模型浪潮的兴起,幻方量化决定将 AI 研发力量独立出来,成立 DeepSeek 专注于大模型的基础研究和产品化。

核心亮点:DeepSeek 是极少数由量化投资机构孵化的大模型公司,这一背景为其带来了独特的工程基因和资金优势。与传统互联网巨头(百度、阿里、腾讯)孵化的大模型团队不同,DeepSeek 的创始团队在算法优化、系统效率和高性能计算方面积累了丰富的实战经验。

1.2 团队背景

DeepSeek 团队由一批来自顶尖高校和研究机构的 AI 科学家、工程师组成,核心成员在自然语言处理、深度学习、高性能计算等领域有深厚造诣。团队规模相对精干,保持小型化、精英化的运作方式,这与许多需要庞大团队的大模型公司形成鲜明对比。

创始人梁文锋既是幻方量化的联合创始人,也是 DeepSeek 的掌舵人。在他的带领下,DeepSeek 走出了一条极具特色的技术路线——以系统级创新驱动模型能力提升,而非单纯依赖扩大模型规模和训练数据。

1.3 公司使命

DeepSeek 的使命是"让 AI 更加普惠"。公司致力于通过技术创新大幅降低大模型的使用成本,让更多开发者和企业能够负担并利用先进的 AI 能力。这一使命贯穿于 DeepSeek 的所有产品决策中——从极具性价比的 API 定价到全面的开源策略。

与幻方量化的关系

幻方量化是 DeepSeek 的母公司和主要投资人,为 DeepSeek 提供了关键的初始资金、计算资源(包括万卡级别的 GPU 集群)和工程人才支持。两家公司在技术和人才上保持密切协作,幻方量化的高性能计算经验和基础设施为 DeepSeek 的大模型训练提供了坚实基础。

这种关系类似于 Google 与 DeepMind 的关系——母公司提供资金和基础设施,子公司专注于前沿研究。不同的是,DeepSeek 在商业化和产品化方面更加独立和灵活。

二、发展历程

DeepSeek 的发展历程虽然时间不长,但节奏极快,几乎每隔几个月就有重大技术突破。以下是关键里程碑:

时间 里程碑 说明
2023年7月 DeepSeek 公司成立 由幻方量化孵化,开始大语言模型研发
2023年11月 DeepSeek LLM 发布 首个大语言模型(67B 参数),在多项基准测试中达到开源模型领先水平
2024年1月 DeepSeek-Coder 发布 专注于代码生成和理解的专用模型,在代码领域表现突出
2024年2月 DeepSeek-Math 发布 专注于数学推理的专用模型
2024年5月 DeepSeek-V2 发布 首个采用 MoE 架构的主力模型,引入 Multi-head Latent Attention(MLA),大幅降低推理成本
2024年8月 DeepSeek-V2.5 发布 对 V2 的改进版本,综合能力进一步提升
2024年12月 DeepSeek-V3 发布 671B 总参数(37B 激活参数)的 MoE 模型,性能接近 GPT-4o,震惊业界
2025年1月 DeepSeek-R1 发布 首个开源推理模型,采用强化学习训练,推理能力媲美 OpenAI o1,引爆全球讨论
2025年2月 DeepSeek 应用登顶下载榜 DeepSeek 应用在全球 App Store 下载量超越 ChatGPT,成为现象级产品
2025年5月 DeepSeek-V3 持续迭代 模型能力持续提升,API 价格进一步降低
关键观察:DeepSeek 在不到两年的时间里,从一个新创团队成长为全球 AI 领域不可忽视的力量。其发展速度之快,很大程度上得益于精准的技术路线选择——采用 MoE 架构在保证模型性能的同时大幅降低成本,以及通过开源策略快速建立开发者生态。

三、核心模型详解

3.1 DeepSeek-V2 / V2.5

DeepSeek-V2 是公司首款具有里程碑意义的模型,于2024年5月发布。该模型首次采用了 MoE(混合专家模型)架构,总参数量达到236B,但每次推理只激活约21B参数。这一设计使得模型在保持高性能的同时,推理效率大幅提升。

DeepSeek-V2 的核心创新包括:

DeepSeek-V2.5 在 V2 基础上进行了多项改进,综合能力在多个 benchmark 上有所提升,同时保持了低成本推理的优势。

3.2 DeepSeek-V3

DeepSeek-V3 于2024年12月发布,是 DeepSeek 的旗舰模型,一经发布便在 AI 社区引发巨大轰动。V3 采用 671B 总参数、37B 激活参数的 MoE 架构,在多项基准测试中达到了与 GPT-4o、Claude Sonnet 3.5 等顶尖闭源模型相当甚至更优的水平。

V3 的核心突破:DeepSeek-V3 证明了一个开源模型(且仅有 37B 激活参数)可以在性能上媲美最强大的闭源模型。这一发现挑战了"越大越好"的传统认知,为 AI 行业提供了一条全新的发展路径——通过架构创新而非单纯堆叠参数来提升性能。

DeepSeek-V3 的主要技术特点:

训练成本震惊业界

DeepSeek-V3 的完整训练仅在 2,048 块 NVIDIA H800 GPU 上完成,总训练成本约 557 万美元。相比之下,训练类似规模的模型通常需要 10,000+ 块 GPU 和上亿美元的成本。这一成就得益于其在训练框架、并行策略和混合精度训练方面的系统级优化。

3.3 DeepSeek-R1 推理模型

DeepSeek-R1 于2025年1月发布,是 DeepSeek 推出的首个具身推理模型(Reasoning Model),在 AI 领域引发了自 ChatGPT 发布以来最大规模的讨论。R1 采用 强化学习(RL)训练方法,让模型学会"思考"——即在给出最终答案之前,先生成一段内部推理过程(Chain of Thought)。

R1 的核心训练方法

DeepSeek-R1 的训练分为几个关键阶段:

  1. 冷启动阶段:用小量高质量推理数据对基座模型进行 SFT(监督微调),让模型学会基本的推理格式
  2. RL 强化阶段:采用 Group Relative Policy Optimization (GRPO) 算法,通过大规模强化学习让模型自我探索推理策略
  3. 拒绝采样 + SFT:从 RL 模型中采样高质量的推理轨迹,再次进行监督微调
  4. 全场景 RL:结合有用性(helpfulness)和安全性(harmlessness)奖励进行多轮 RL 训练

R1 在数学推理、编程竞赛和科学问题上的表现极为出色,在 AIME 2024 数学竞赛中达到了与 OpenAI o1 相当的水平。DeepSeek 同时开源了 R1 的蒸馏版本(1.5B 到 70B 参数),让开发者可以在本地设备上运行轻量级的推理模型。

DeepSeek-R1 的出现标志着开源推理模型首次达到与闭源推理模型(如 OpenAI o1)相同的水平。这不仅是一次技术突破,更是一次"民主化"的突破——任何开发者都可以下载、研究甚至改进最先进的推理技术。

3.4 DeepSeek-Coder 代码模型

DeepSeek-Coder 是 DeepSeek 专为代码生成和理解开发的专用模型系列。该模型在大量代码数据上进行了预训练,支持多种编程语言,在 HumanEval、MBPP 等编程基准测试中表现优异。

四、MoE 架构创新

4.1 什么是混合专家模型(MoE)

混合专家模型(Mixture of Experts, MoE)是一种深度学习架构,其中模型由多个"专家"子网络和一个"门控"(Router/Gate)网络组成。对于每个输入 token,门控网络会动态选择最相关的几个专家来处理,而不是激活所有参数。

MoE 的核心思想

可以这样理解 MoE:想象一个大型医院,有各种专科医生(专家),包括内科、外科、眼科、牙科等。当病人(输入 token)来看病时,导诊台(门控网络)会根据病人的症状,将其引导到最相关的 1-2 个科室。这样,每个病人不需要看所有医生,整体效率大大提高。

在传统 Dense 模型中,所有参数对所有输入都会被激活,就像每个病人都必须看所有医生一样。而在 MoE 中,每个 token 只激活部分专家,大大节省了计算资源。

4.2 DeepSeekMoE 的特色

DeepSeek 在 MoE 架构上进行了多项创新,形成了自己的特色方案:

创新点 说明 优势
细粒度专家分割 将传统 MoE 中的大专家拆分成更多的小专家 提高专家利用率和灵活性,避免专家"闲置"
共享专家隔离 设置独立的共享专家处理公共知识 减少路由专家之间的冗余,提高效率
动态专家路由 基于 top-k 选择策略激活专家 根据输入自适应选择最合适的专家
无辅助损失负载均衡 通过动态偏置调整实现负载均衡,不依赖辅助损失函数 避免辅助损失对模型质量的负面影响

4.3 MoE 为何能降低推理成本

MoE 架构降低推理成本的原理非常直观:

成本的数学表达:如果 Dense 模型需要 N 个 FLOPs 来处理一个 token,MoE 模型(总参数 T,激活参数 A)大约需要 N × (A/T) 个 FLOPs。DeepSeek-V3 的 A/T = 37/671 ≈ 5.5%,理论上推理成本可以降低到同等参数规模 Dense 模型的 5.5% 左右。这解释了为什么 DeepSeek 的 API 定价可以做到如此之低。

五、开源策略与影响

5.1 DeepSeek 的开源模式

DeepSeek 采取了"模型权重完全开源 + 技术论文详细公开"的开源策略,这与其他大模型公司形成鲜明对比:

"DeepSeek 的 R1 论文和开源权重,可能是 2025 年 AI 领域最值得阅读的文档之一。它详细展示了一个团队如何用不到十分之一的资源,实现与最强大模型相匹敌的性能。"
—— AI 社区对 DeepSeek-R1 开源的评价

5.2 开源对 AI 行业的影响

DeepSeek 的开源策略对整个 AI 行业产生了深远影响:

5.3 与闭源模型的对比

维度 DeepSeek(开源) GPT-4o(闭源) Claude(闭源)
模型权重 完全开源,可下载 仅 API 访问 仅 API 访问
技术细节 详细论文公开 少量技术博客 少量技术博客
自定义微调 完全支持本地微调 有限(通过 API) 有限(通过 API)
本地部署 完全支持 不支持 不支持
商业使用 许可友好 按量付费 按量付费
数据隐私 完全可控(本地部署) 受制于服务商政策 受制于服务商政策

六、DeepSeek 的使用方式

6.1 网页版聊天

最直接的使用方式是访问 DeepSeek 官网聊天应用:chat.deepseek.com。网页版提供以下功能:

使用提示

网页版 DeepSeek 目前完全免费使用,无需付费即可体验最强的 DeepSeek-V3 和 DeepSeek-R1 模型。这是体验 DeepSeek 能力最便捷的方式。移动端 App 可以在各大应用商店(App Store、华为应用市场等)下载。

6.2 API 调用

DeepSeek 提供 OpenAI 兼容的 API 接口,开发者可以轻松集成。API 调用示例:

# Python 调用 DeepSeek API 示例
import openai
client = openai.OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello!"}
    ],
    stream=True
)
for chunk in response:
    print(chunk.choices[0].delta.content, end="")

API 支持的主要模型:

6.3 本地部署

由于 DeepSeek 模型完全开源,开发者可以在本地或自有服务器上部署。常用的部署方式包括:

硬件需求:DeepSeek-V3 完整版(671B 参数)需要多张高端 GPU(如 8×H100 80GB)才能运行。对于个人用户,推荐使用蒸馏版本(如 7B、14B、32B 参数量),可以用单张消费级 GPU 甚至纯 CPU 运行。

七、API 定价与性价比

7.1 DeepSeek API 定价

DeepSeek 的 API 定价以"极致性价比"著称,远低于同类产品。以下是截至 2025 年的定价参考:

模型 输入价格(每百万 tokens) 输出价格(每百万 tokens) 缓存命中价格
DeepSeek-V3 (deepseek-chat) ¥1.00(约 $0.14) ¥2.00(约 $0.28) ¥0.10(约 $0.014)
DeepSeek-R1 (deepseek-reasoner) ¥4.00(约 $0.55) ¥16.00(约 $2.19) ¥1.00(约 $0.14)

7.2 与竞品价格对比

模型/提供商 输入价格(每百万 tokens) 输出价格(每百万 tokens) 性价比指数
DeepSeek-V3 $0.14 $0.28 ★★★★★
GPT-4o $2.50 $10.00 ★★☆☆☆
Claude 3.5 Sonnet $3.00 $15.00 ★★☆☆☆
Claude 3 Opus $15.00 $75.00 ★☆☆☆☆
Gemini 1.5 Pro $1.25 - $2.50 $5.00 - $10.00 ★★★☆☆
GPT-4o mini $0.15 $0.60 ★★★★☆
价格优势分析:DeepSeek-V3 的 API 价格仅为 GPT-4o 的 1/18(输入)和 1/36(输出),但模型性能在多项基准测试中与 GPT-4o 不相上下。这意味着开发者可以以极低的成本获得世界级的 AI 能力。对于高吞吐应用(如客服、内容生成、数据处理),使用 DeepSeek API 可以节省 90% 以上的成本。

7.3 极致性价比的来源

DeepSeek 能够提供如此低的价格,主要得益于以下几个方面:

八、DeepSeek 与主要竞品对比

8.1 多维度对比总览

对比维度 DeepSeek-V3 GPT-4o Claude 3.5 Sonnet Gemini 2.0 Flash
知识推理 优秀 优秀 优秀 良好
数学能力 优秀(R1 极强) 优秀 良好 良好
代码生成 优秀 优秀 优秀 良好
长文本理解 128K tokens 128K tokens 200K tokens 1M tokens
多模态 文本为主(不支持图像生成) 文本+图像+语音 文本+图像 文本+图像+语音+视频
推理速度 快(MoE 优势) 中等 极快
API 价格 极低 中等
开源
本地部署 支持 不支持 不支持 不支持
中文能力 极强 良好 良好 良好

8.2 DeepSeek 的优势

8.3 DeepSeek 的不足

量化基金做 AI 的独特优势

DeepSeek 对比其他 AI 公司,一个不常被讨论的优势是其"量化基因":

  • 成本意识极强:量化交易的本质是精打细算,追求最优的投入产出比。这种文化使得 DeepSeek 在每个环节都追求极致的效率
  • 系统工程能力强:量化交易需要处理海量数据和复杂的计算,这培养了团队在大规模系统优化方面的深厚功力
  • 不受短期盈利压力:有幻方量化作为后盾,DeepSeek 不需要像传统 AI 创业公司那样急于商业化,可以更专注于长期的基础研究

九、行业影响与争议

9.1 对 AI 行业格局的影响

DeepSeek 的出现对全球 AI 行业产生了结构性影响:

"DeepSeek 的崛起让人想起当年 Android 对 iOS 的挑战——一个开放、灵活、低成本的生态系统,正在挑战封闭、昂贵但精致的生态系统。最终受益的将是全球的 AI 用户和开发者。"
—— 科技行业分析评论

9.2 成本优势引发的行业调整

DeepSeek 的成本优势引发了一系列连锁反应:

9.3 数据隐私与安全讨论

DeepSeek 的中国背景也引发了一些数据隐私和安全方面的讨论:

关于数据隐私的客观视角:数据隐私问题并非 DeepSeek 独有。使用任何 AI 服务(包括 OpenAI、Anthropic、Google)都存在数据隐私和数据使用的考量。对于企业用户,DeepSeek 的本地部署能力实际上提供了最高的数据隐私保障——模型完全运行在自己的服务器上,数据不会离开企业网络。这与使用其他闭源 API 服务相比,在隐私保护上具有明显优势。

9.4 技术争议与挑战

DeepSeek 也面临一些技术和商业上的挑战:

十、核心要点总结

1. 公司定位

DeepSeek 是一家由中国幻方量化孵化的 AI 公司,以"让 AI 更加普惠"为使命,通过技术创新大幅降低大模型的使用成本。

2. 技术核心

MoE(混合专家模型)架构是 DeepSeek 最核心的技术创新。DeepSeek-V3 以 671B 总参数、37B 激活参数实现了与 GPT-4o 媲美的性能,推理成本仅为同等 Dense 模型的 5.5%。

3. R1 推理模型

DeepSeek-R1 是首个开源的推理模型,采用强化学习训练,推理能力与 OpenAI o1 相当。它的开源标志着推理能力从闭源走向普惠的重大转折。

4. 开源策略

DeepSeek 采取"模型权重完全开源 + 技术论文详细公开"的策略,推动了全球开源大模型的发展,让更多研究者和开发者能够访问和使用最前沿的 AI 技术。

5. 性价比优势

DeepSeek API 的定价仅为 GPT-4o 的 1/18(输入)和 1/36(输出),是市场上性价比最高的大模型 API 之一。这一优势来源于架构创新而非低价倾销。

6. 行业影响

DeepSeek 的出现打破了"算力决定一切"的传统认知,引发了全球 AI 价格战,推动了整个行业向更高效、更廉价的方向发展。

7. 使用方式

可以通过网页版(chat.deepseek.com)、移动端 App、OpenAI 兼容 API 和本地部署四种方式使用 DeepSeek。其中网页版和 App 目前完全免费。

8. 局限与展望

DeepSeek 在多模态能力、国际品牌认知和生态完善度方面仍有提升空间。但凭借其强大的技术实力和开源策略,DeepSeek 有望在全球 AI 格局中扮演越来越重要的角色。

一句话总结:DeepSeek 是 AI 行业的一场"效率革命"——它用事实证明了通过系统级架构创新,可以用更少的资源做出世界级的大模型,让 AI 从奢侈品变成日用品,真正走向普惠。