DeepSeek(中文名:深度求索)是一家专注于人工智能基础研究与开发的中国科技公司,由知名量化投资机构幻方量化(High-Flyer Quant)于2023年孵化创立。公司总部位于中国杭州,致力于开发前沿的大语言模型(LLM)和人工智能技术。
DeepSeek 的诞生源于幻方量化在 AI 领域的深厚积累。幻方量化作为中国顶尖的量化对冲基金之一,在 AI 技术研发方面投入巨资,拥有强大的计算资源和工程团队。2023年,随着大语言模型浪潮的兴起,幻方量化决定将 AI 研发力量独立出来,成立 DeepSeek 专注于大模型的基础研究和产品化。
DeepSeek 团队由一批来自顶尖高校和研究机构的 AI 科学家、工程师组成,核心成员在自然语言处理、深度学习、高性能计算等领域有深厚造诣。团队规模相对精干,保持小型化、精英化的运作方式,这与许多需要庞大团队的大模型公司形成鲜明对比。
创始人梁文锋既是幻方量化的联合创始人,也是 DeepSeek 的掌舵人。在他的带领下,DeepSeek 走出了一条极具特色的技术路线——以系统级创新驱动模型能力提升,而非单纯依赖扩大模型规模和训练数据。
DeepSeek 的使命是"让 AI 更加普惠"。公司致力于通过技术创新大幅降低大模型的使用成本,让更多开发者和企业能够负担并利用先进的 AI 能力。这一使命贯穿于 DeepSeek 的所有产品决策中——从极具性价比的 API 定价到全面的开源策略。
幻方量化是 DeepSeek 的母公司和主要投资人,为 DeepSeek 提供了关键的初始资金、计算资源(包括万卡级别的 GPU 集群)和工程人才支持。两家公司在技术和人才上保持密切协作,幻方量化的高性能计算经验和基础设施为 DeepSeek 的大模型训练提供了坚实基础。
这种关系类似于 Google 与 DeepMind 的关系——母公司提供资金和基础设施,子公司专注于前沿研究。不同的是,DeepSeek 在商业化和产品化方面更加独立和灵活。
DeepSeek 的发展历程虽然时间不长,但节奏极快,几乎每隔几个月就有重大技术突破。以下是关键里程碑:
| 时间 | 里程碑 | 说明 |
|---|---|---|
| 2023年7月 | DeepSeek 公司成立 | 由幻方量化孵化,开始大语言模型研发 |
| 2023年11月 | DeepSeek LLM 发布 | 首个大语言模型(67B 参数),在多项基准测试中达到开源模型领先水平 |
| 2024年1月 | DeepSeek-Coder 发布 | 专注于代码生成和理解的专用模型,在代码领域表现突出 |
| 2024年2月 | DeepSeek-Math 发布 | 专注于数学推理的专用模型 |
| 2024年5月 | DeepSeek-V2 发布 | 首个采用 MoE 架构的主力模型,引入 Multi-head Latent Attention(MLA),大幅降低推理成本 |
| 2024年8月 | DeepSeek-V2.5 发布 | 对 V2 的改进版本,综合能力进一步提升 |
| 2024年12月 | DeepSeek-V3 发布 | 671B 总参数(37B 激活参数)的 MoE 模型,性能接近 GPT-4o,震惊业界 |
| 2025年1月 | DeepSeek-R1 发布 | 首个开源推理模型,采用强化学习训练,推理能力媲美 OpenAI o1,引爆全球讨论 |
| 2025年2月 | DeepSeek 应用登顶下载榜 | DeepSeek 应用在全球 App Store 下载量超越 ChatGPT,成为现象级产品 |
| 2025年5月 | DeepSeek-V3 持续迭代 | 模型能力持续提升,API 价格进一步降低 |
DeepSeek-V2 是公司首款具有里程碑意义的模型,于2024年5月发布。该模型首次采用了 MoE(混合专家模型)架构,总参数量达到236B,但每次推理只激活约21B参数。这一设计使得模型在保持高性能的同时,推理效率大幅提升。
DeepSeek-V2 的核心创新包括:
DeepSeek-V2.5 在 V2 基础上进行了多项改进,综合能力在多个 benchmark 上有所提升,同时保持了低成本推理的优势。
DeepSeek-V3 于2024年12月发布,是 DeepSeek 的旗舰模型,一经发布便在 AI 社区引发巨大轰动。V3 采用 671B 总参数、37B 激活参数的 MoE 架构,在多项基准测试中达到了与 GPT-4o、Claude Sonnet 3.5 等顶尖闭源模型相当甚至更优的水平。
DeepSeek-V3 的主要技术特点:
DeepSeek-V3 的完整训练仅在 2,048 块 NVIDIA H800 GPU 上完成,总训练成本约 557 万美元。相比之下,训练类似规模的模型通常需要 10,000+ 块 GPU 和上亿美元的成本。这一成就得益于其在训练框架、并行策略和混合精度训练方面的系统级优化。
DeepSeek-R1 于2025年1月发布,是 DeepSeek 推出的首个具身推理模型(Reasoning Model),在 AI 领域引发了自 ChatGPT 发布以来最大规模的讨论。R1 采用 强化学习(RL)训练方法,让模型学会"思考"——即在给出最终答案之前,先生成一段内部推理过程(Chain of Thought)。
DeepSeek-R1 的训练分为几个关键阶段:
R1 在数学推理、编程竞赛和科学问题上的表现极为出色,在 AIME 2024 数学竞赛中达到了与 OpenAI o1 相当的水平。DeepSeek 同时开源了 R1 的蒸馏版本(1.5B 到 70B 参数),让开发者可以在本地设备上运行轻量级的推理模型。
DeepSeek-R1 的出现标志着开源推理模型首次达到与闭源推理模型(如 OpenAI o1)相同的水平。这不仅是一次技术突破,更是一次"民主化"的突破——任何开发者都可以下载、研究甚至改进最先进的推理技术。
DeepSeek-Coder 是 DeepSeek 专为代码生成和理解开发的专用模型系列。该模型在大量代码数据上进行了预训练,支持多种编程语言,在 HumanEval、MBPP 等编程基准测试中表现优异。
混合专家模型(Mixture of Experts, MoE)是一种深度学习架构,其中模型由多个"专家"子网络和一个"门控"(Router/Gate)网络组成。对于每个输入 token,门控网络会动态选择最相关的几个专家来处理,而不是激活所有参数。
可以这样理解 MoE:想象一个大型医院,有各种专科医生(专家),包括内科、外科、眼科、牙科等。当病人(输入 token)来看病时,导诊台(门控网络)会根据病人的症状,将其引导到最相关的 1-2 个科室。这样,每个病人不需要看所有医生,整体效率大大提高。
在传统 Dense 模型中,所有参数对所有输入都会被激活,就像每个病人都必须看所有医生一样。而在 MoE 中,每个 token 只激活部分专家,大大节省了计算资源。
DeepSeek 在 MoE 架构上进行了多项创新,形成了自己的特色方案:
| 创新点 | 说明 | 优势 |
|---|---|---|
| 细粒度专家分割 | 将传统 MoE 中的大专家拆分成更多的小专家 | 提高专家利用率和灵活性,避免专家"闲置" |
| 共享专家隔离 | 设置独立的共享专家处理公共知识 | 减少路由专家之间的冗余,提高效率 |
| 动态专家路由 | 基于 top-k 选择策略激活专家 | 根据输入自适应选择最合适的专家 |
| 无辅助损失负载均衡 | 通过动态偏置调整实现负载均衡,不依赖辅助损失函数 | 避免辅助损失对模型质量的负面影响 |
MoE 架构降低推理成本的原理非常直观:
DeepSeek 采取了"模型权重完全开源 + 技术论文详细公开"的开源策略,这与其他大模型公司形成鲜明对比:
"DeepSeek 的 R1 论文和开源权重,可能是 2025 年 AI 领域最值得阅读的文档之一。它详细展示了一个团队如何用不到十分之一的资源,实现与最强大模型相匹敌的性能。"
—— AI 社区对 DeepSeek-R1 开源的评价
DeepSeek 的开源策略对整个 AI 行业产生了深远影响:
| 维度 | DeepSeek(开源) | GPT-4o(闭源) | Claude(闭源) |
|---|---|---|---|
| 模型权重 | 完全开源,可下载 | 仅 API 访问 | 仅 API 访问 |
| 技术细节 | 详细论文公开 | 少量技术博客 | 少量技术博客 |
| 自定义微调 | 完全支持本地微调 | 有限(通过 API) | 有限(通过 API) |
| 本地部署 | 完全支持 | 不支持 | 不支持 |
| 商业使用 | 许可友好 | 按量付费 | 按量付费 |
| 数据隐私 | 完全可控(本地部署) | 受制于服务商政策 | 受制于服务商政策 |
最直接的使用方式是访问 DeepSeek 官网聊天应用:chat.deepseek.com。网页版提供以下功能:
网页版 DeepSeek 目前完全免费使用,无需付费即可体验最强的 DeepSeek-V3 和 DeepSeek-R1 模型。这是体验 DeepSeek 能力最便捷的方式。移动端 App 可以在各大应用商店(App Store、华为应用市场等)下载。
DeepSeek 提供 OpenAI 兼容的 API 接口,开发者可以轻松集成。API 调用示例:
API 支持的主要模型:
由于 DeepSeek 模型完全开源,开发者可以在本地或自有服务器上部署。常用的部署方式包括:
DeepSeek 的 API 定价以"极致性价比"著称,远低于同类产品。以下是截至 2025 年的定价参考:
| 模型 | 输入价格(每百万 tokens) | 输出价格(每百万 tokens) | 缓存命中价格 |
|---|---|---|---|
| DeepSeek-V3 (deepseek-chat) | ¥1.00(约 $0.14) | ¥2.00(约 $0.28) | ¥0.10(约 $0.014) |
| DeepSeek-R1 (deepseek-reasoner) | ¥4.00(约 $0.55) | ¥16.00(约 $2.19) | ¥1.00(约 $0.14) |
| 模型/提供商 | 输入价格(每百万 tokens) | 输出价格(每百万 tokens) | 性价比指数 |
|---|---|---|---|
| DeepSeek-V3 | $0.14 | $0.28 | ★★★★★ |
| GPT-4o | $2.50 | $10.00 | ★★☆☆☆ |
| Claude 3.5 Sonnet | $3.00 | $15.00 | ★★☆☆☆ |
| Claude 3 Opus | $15.00 | $75.00 | ★☆☆☆☆ |
| Gemini 1.5 Pro | $1.25 - $2.50 | $5.00 - $10.00 | ★★★☆☆ |
| GPT-4o mini | $0.15 | $0.60 | ★★★★☆ |
DeepSeek 能够提供如此低的价格,主要得益于以下几个方面:
| 对比维度 | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet | Gemini 2.0 Flash |
|---|---|---|---|---|
| 知识推理 | 优秀 | 优秀 | 优秀 | 良好 |
| 数学能力 | 优秀(R1 极强) | 优秀 | 良好 | 良好 |
| 代码生成 | 优秀 | 优秀 | 优秀 | 良好 |
| 长文本理解 | 128K tokens | 128K tokens | 200K tokens | 1M tokens |
| 多模态 | 文本为主(不支持图像生成) | 文本+图像+语音 | 文本+图像 | 文本+图像+语音+视频 |
| 推理速度 | 快(MoE 优势) | 快 | 中等 | 极快 |
| API 价格 | 极低 | 高 | 高 | 中等 |
| 开源 | 是 | 否 | 否 | 否 |
| 本地部署 | 支持 | 不支持 | 不支持 | 不支持 |
| 中文能力 | 极强 | 良好 | 良好 | 良好 |
DeepSeek 对比其他 AI 公司,一个不常被讨论的优势是其"量化基因":
DeepSeek 的出现对全球 AI 行业产生了结构性影响:
"DeepSeek 的崛起让人想起当年 Android 对 iOS 的挑战——一个开放、灵活、低成本的生态系统,正在挑战封闭、昂贵但精致的生态系统。最终受益的将是全球的 AI 用户和开发者。"
—— 科技行业分析评论
DeepSeek 的成本优势引发了一系列连锁反应:
DeepSeek 的中国背景也引发了一些数据隐私和安全方面的讨论:
DeepSeek 也面临一些技术和商业上的挑战:
DeepSeek 是一家由中国幻方量化孵化的 AI 公司,以"让 AI 更加普惠"为使命,通过技术创新大幅降低大模型的使用成本。
MoE(混合专家模型)架构是 DeepSeek 最核心的技术创新。DeepSeek-V3 以 671B 总参数、37B 激活参数实现了与 GPT-4o 媲美的性能,推理成本仅为同等 Dense 模型的 5.5%。
DeepSeek-R1 是首个开源的推理模型,采用强化学习训练,推理能力与 OpenAI o1 相当。它的开源标志着推理能力从闭源走向普惠的重大转折。
DeepSeek 采取"模型权重完全开源 + 技术论文详细公开"的策略,推动了全球开源大模型的发展,让更多研究者和开发者能够访问和使用最前沿的 AI 技术。
DeepSeek API 的定价仅为 GPT-4o 的 1/18(输入)和 1/36(输出),是市场上性价比最高的大模型 API 之一。这一优势来源于架构创新而非低价倾销。
DeepSeek 的出现打破了"算力决定一切"的传统认知,引发了全球 AI 价格战,推动了整个行业向更高效、更廉价的方向发展。
可以通过网页版(chat.deepseek.com)、移动端 App、OpenAI 兼容 API 和本地部署四种方式使用 DeepSeek。其中网页版和 App 目前完全免费。
DeepSeek 在多模态能力、国际品牌认知和生态完善度方面仍有提升空间。但凭借其强大的技术实力和开源策略,DeepSeek 有望在全球 AI 格局中扮演越来越重要的角色。