DeepSeek AI 公司专题详解 - 学习笔记-Claude Code-上海佼艾

一、DeepSeek 公司概述

1.1 创立背景

DeepSeek（中文名：深度求索）是一家专注于人工智能基础研究与开发的中国科技公司，由知名量化投资机构幻方量化（High-Flyer Quant）于2023年孵化创立。公司总部位于中国杭州，致力于开发前沿的大语言模型（LLM）和人工智能技术。

DeepSeek 的诞生源于幻方量化在 AI 领域的深厚积累。幻方量化作为中国顶尖的量化对冲基金之一，在 AI 技术研发方面投入巨资，拥有强大的计算资源和工程团队。2023年，随着大语言模型浪潮的兴起，幻方量化决定将 AI 研发力量独立出来，成立 DeepSeek 专注于大模型的基础研究和产品化。

核心亮点：DeepSeek 是极少数由量化投资机构孵化的大模型公司，这一背景为其带来了独特的工程基因和资金优势。与传统互联网巨头（百度、阿里、腾讯）孵化的大模型团队不同，DeepSeek 的创始团队在算法优化、系统效率和高性能计算方面积累了丰富的实战经验。

1.2 团队背景

DeepSeek 团队由一批来自顶尖高校和研究机构的 AI 科学家、工程师组成，核心成员在自然语言处理、深度学习、高性能计算等领域有深厚造诣。团队规模相对精干，保持小型化、精英化的运作方式，这与许多需要庞大团队的大模型公司形成鲜明对比。

创始人梁文锋既是幻方量化的联合创始人，也是 DeepSeek 的掌舵人。在他的带领下，DeepSeek 走出了一条极具特色的技术路线——以系统级创新驱动模型能力提升，而非单纯依赖扩大模型规模和训练数据。

1.3 公司使命

DeepSeek 的使命是"让 AI 更加普惠"。公司致力于通过技术创新大幅降低大模型的使用成本，让更多开发者和企业能够负担并利用先进的 AI 能力。这一使命贯穿于 DeepSeek 的所有产品决策中——从极具性价比的 API 定价到全面的开源策略。

与幻方量化的关系

幻方量化是 DeepSeek 的母公司和主要投资人，为 DeepSeek 提供了关键的初始资金、计算资源（包括万卡级别的 GPU 集群）和工程人才支持。两家公司在技术和人才上保持密切协作，幻方量化的高性能计算经验和基础设施为 DeepSeek 的大模型训练提供了坚实基础。

这种关系类似于 Google 与 DeepMind 的关系——母公司提供资金和基础设施，子公司专注于前沿研究。不同的是，DeepSeek 在商业化和产品化方面更加独立和灵活。

二、发展历程

DeepSeek 的发展历程虽然时间不长，但节奏极快，几乎每隔几个月就有重大技术突破。以下是关键里程碑：

时间	里程碑	说明
2023年7月	DeepSeek 公司成立	由幻方量化孵化，开始大语言模型研发
2023年11月	DeepSeek LLM 发布	首个大语言模型（67B 参数），在多项基准测试中达到开源模型领先水平
2024年1月	DeepSeek-Coder 发布	专注于代码生成和理解的专用模型，在代码领域表现突出
2024年2月	DeepSeek-Math 发布	专注于数学推理的专用模型
2024年5月	DeepSeek-V2 发布	首个采用 MoE 架构的主力模型，引入 Multi-head Latent Attention（MLA），大幅降低推理成本
2024年8月	DeepSeek-V2.5 发布	对 V2 的改进版本，综合能力进一步提升
2024年12月	DeepSeek-V3 发布	671B 总参数（37B 激活参数）的 MoE 模型，性能接近 GPT-4o，震惊业界
2025年1月	DeepSeek-R1 发布	首个开源推理模型，采用强化学习训练，推理能力媲美 OpenAI o1，引爆全球讨论
2025年2月	DeepSeek 应用登顶下载榜	DeepSeek 应用在全球 App Store 下载量超越 ChatGPT，成为现象级产品
2025年5月	DeepSeek-V3 持续迭代	模型能力持续提升，API 价格进一步降低

关键观察：DeepSeek 在不到两年的时间里，从一个新创团队成长为全球 AI 领域不可忽视的力量。其发展速度之快，很大程度上得益于精准的技术路线选择——采用 MoE 架构在保证模型性能的同时大幅降低成本，以及通过开源策略快速建立开发者生态。

三、核心模型详解

3.1 DeepSeek-V2 / V2.5

DeepSeek-V2 是公司首款具有里程碑意义的模型，于2024年5月发布。该模型首次采用了 MoE（混合专家模型）架构，总参数量达到236B，但每次推理只激活约21B参数。这一设计使得模型在保持高性能的同时，推理效率大幅提升。

DeepSeek-V2 的核心创新包括：

Multi-head Latent Attention (MLA)：一种新型注意力机制，大幅降低了 KV Cache 的显存占用，使推理成本显著下降
DeepSeekMoE 架构：采用细粒度专家分割和共享专家隔离策略，提升专家利用率
高效的训练框架：使用 HAI-LLM 训练框架，支持大规模分布式训练

DeepSeek-V2.5 在 V2 基础上进行了多项改进，综合能力在多个 benchmark 上有所提升，同时保持了低成本推理的优势。

3.2 DeepSeek-V3

DeepSeek-V3 于2024年12月发布，是 DeepSeek 的旗舰模型，一经发布便在 AI 社区引发巨大轰动。V3 采用 671B 总参数、37B 激活参数的 MoE 架构，在多项基准测试中达到了与 GPT-4o、Claude Sonnet 3.5 等顶尖闭源模型相当甚至更优的水平。

V3 的核心突破：DeepSeek-V3 证明了一个开源模型（且仅有 37B 激活参数）可以在性能上媲美最强大的闭源模型。这一发现挑战了"越大越好"的传统认知，为 AI 行业提供了一条全新的发展路径——通过架构创新而非单纯堆叠参数来提升性能。

DeepSeek-V3 的主要技术特点：

MoE 架构再升级：采用 256 个专家（Expert），每个 token 激活 8 个专家（top-8 routing），专家利用率更高
Multi-Token Prediction (MTP)：训练时同时预测多个 token，提升训练效率和模型质量
FP8 混合精度训练：首次在超大规模模型训练中使用 FP8，大幅降低显存需求和训练成本
Auxiliary-Loss-Free Load Balancing：创新的负载均衡策略，无需辅助损失函数即可实现专家负载均衡
流水线并行 + 专家并行：高效的分布式训练方案，支持 2048 块 GPU 的集群训练

训练成本震惊业界

DeepSeek-V3 的完整训练仅在 2,048 块 NVIDIA H800 GPU 上完成，总训练成本约 557 万美元。相比之下，训练类似规模的模型通常需要 10,000+ 块 GPU 和上亿美元的成本。这一成就得益于其在训练框架、并行策略和混合精度训练方面的系统级优化。

3.3 DeepSeek-R1 推理模型

DeepSeek-R1 于2025年1月发布，是 DeepSeek 推出的首个具身推理模型（Reasoning Model），在 AI 领域引发了自 ChatGPT 发布以来最大规模的讨论。R1 采用 强化学习（RL）训练方法，让模型学会"思考"——即在给出最终答案之前，先生成一段内部推理过程（Chain of Thought）。

R1 的核心训练方法

DeepSeek-R1 的训练分为几个关键阶段：

冷启动阶段：用小量高质量推理数据对基座模型进行 SFT（监督微调），让模型学会基本的推理格式
RL 强化阶段：采用 Group Relative Policy Optimization (GRPO) 算法，通过大规模强化学习让模型自我探索推理策略
拒绝采样 + SFT：从 RL 模型中采样高质量的推理轨迹，再次进行监督微调
全场景 RL：结合有用性（helpfulness）和安全性（harmlessness）奖励进行多轮 RL 训练

R1 在数学推理、编程竞赛和科学问题上的表现极为出色，在 AIME 2024 数学竞赛中达到了与 OpenAI o1 相当的水平。DeepSeek 同时开源了 R1 的蒸馏版本（1.5B 到 70B 参数），让开发者可以在本地设备上运行轻量级的推理模型。

DeepSeek-R1 的出现标志着开源推理模型首次达到与闭源推理模型（如 OpenAI o1）相同的水平。这不仅是一次技术突破，更是一次"民主化"的突破——任何开发者都可以下载、研究甚至改进最先进的推理技术。

3.4 DeepSeek-Coder 代码模型

DeepSeek-Coder 是 DeepSeek 专为代码生成和理解开发的专用模型系列。该模型在大量代码数据上进行了预训练，支持多种编程语言，在 HumanEval、MBPP 等编程基准测试中表现优异。

DeepSeek-Coder-V1：2024年1月发布，在代码补全和生成方面达到开源领先水平
DeepSeek-Coder-V2：2024年6月发布，基于 V2 基座模型，代码能力大幅提升，在多项编码基准测试中超越 GPT-4 Turbo 和 Claude 3 Opus

四、MoE 架构创新

4.1 什么是混合专家模型（MoE）

混合专家模型（Mixture of Experts, MoE）是一种深度学习架构，其中模型由多个"专家"子网络和一个"门控"（Router/Gate）网络组成。对于每个输入 token，门控网络会动态选择最相关的几个专家来处理，而不是激活所有参数。

MoE 的核心思想

可以这样理解 MoE：想象一个大型医院，有各种专科医生（专家），包括内科、外科、眼科、牙科等。当病人（输入 token）来看病时，导诊台（门控网络）会根据病人的症状，将其引导到最相关的 1-2 个科室。这样，每个病人不需要看所有医生，整体效率大大提高。

在传统 Dense 模型中，所有参数对所有输入都会被激活，就像每个病人都必须看所有医生一样。而在 MoE 中，每个 token 只激活部分专家，大大节省了计算资源。

4.2 DeepSeekMoE 的特色

DeepSeek 在 MoE 架构上进行了多项创新，形成了自己的特色方案：

创新点	说明	优势
细粒度专家分割	将传统 MoE 中的大专家拆分成更多的小专家	提高专家利用率和灵活性，避免专家"闲置"
共享专家隔离	设置独立的共享专家处理公共知识	减少路由专家之间的冗余，提高效率
动态专家路由	基于 top-k 选择策略激活专家	根据输入自适应选择最合适的专家
无辅助损失负载均衡	通过动态偏置调整实现负载均衡，不依赖辅助损失函数	避免辅助损失对模型质量的负面影响

4.3 MoE 为何能降低推理成本

MoE 架构降低推理成本的原理非常直观：

参数利用率提升：DeepSeek-V3 总参数 671B，但每个 token 只激活 37B 参数（约 5.5%）。这意味着实际推理计算量仅为同等参数 Dense 模型的 1/18
显存需求降低：MLA（Multi-head Latent Attention）机制将 KV Cache 压缩到极低水平，进一步降低推理时的显存占用
批量推理效率高：MoE 架构在批量推理场景下，通过合理的专家负载均衡可以实现接近线性的吞吐提升

成本的数学表达：如果 Dense 模型需要 N 个 FLOPs 来处理一个 token，MoE 模型（总参数 T，激活参数 A）大约需要 N × (A/T) 个 FLOPs。DeepSeek-V3 的 A/T = 37/671 ≈ 5.5%，理论上推理成本可以降低到同等参数规模 Dense 模型的 5.5% 左右。这解释了为什么 DeepSeek 的 API 定价可以做到如此之低。

五、开源策略与影响

5.1 DeepSeek 的开源模式

DeepSeek 采取了"模型权重完全开源 + 技术论文详细公开"的开源策略，这与其他大模型公司形成鲜明对比：

模型权重完全开源：DeepSeek-V2/V3、DeepSeek-R1、DeepSeek-Coder 等核心模型的权重均在 Hugging Face 等平台公开，任何人都可以下载、使用和修改
技术论文详细公开：每一项技术突破后，DeepSeek 都会发布详尽的技术论文，披露架构细节、训练方法、实验数据等
许可友好：采用较为宽松的 Apache 2.0 或 MIT 许可证，商业使用门槛低

"DeepSeek 的 R1 论文和开源权重，可能是 2025 年 AI 领域最值得阅读的文档之一。它详细展示了一个团队如何用不到十分之一的资源，实现与最强大模型相匹敌的性能。"
—— AI 社区对 DeepSeek-R1 开源的评价

5.2 开源对 AI 行业的影响

DeepSeek 的开源策略对整个 AI 行业产生了深远影响：

推动了开源模型的发展：DeepSeek-R1 的开源让全球研究者可以深入研究和改进推理模型技术，加速了推理能力在开源社区的普及
迫使闭源模型降价：DeepSeek 极具竞争力的定价迫使 OpenAI、Anthropic 等公司不断调整定价策略
验证了"小团队大模型"的可能性：DeepSeek 以小团队和有限资源实现了世界级成果，激励了更多研究团队投入大模型基础研究
降低了 AI 技术门槛：开源权重和详细论文让中小企业和个人开发者也能基于 DeepSeek 构建应用

5.3 与闭源模型的对比

维度	DeepSeek（开源）	GPT-4o（闭源）	Claude（闭源）
模型权重	完全开源，可下载	仅 API 访问	仅 API 访问
技术细节	详细论文公开	少量技术博客	少量技术博客
自定义微调	完全支持本地微调	有限（通过 API）	有限（通过 API）
本地部署	完全支持	不支持	不支持
商业使用	许可友好	按量付费	按量付费
数据隐私	完全可控（本地部署）	受制于服务商政策	受制于服务商政策

六、DeepSeek 的使用方式

6.1 网页版聊天

最直接的使用方式是访问 DeepSeek 官网聊天应用：chat.deepseek.com。网页版提供以下功能：

免费使用 DeepSeek 最新模型进行对话
支持文件上传（PDF、Word、Excel、PPT、图片等），可以从中提取文字信息
支持联网搜索（需手动开启）
支持语音输入（移动端 App）
对话历史保存和管理

使用提示

网页版 DeepSeek 目前完全免费使用，无需付费即可体验最强的 DeepSeek-V3 和 DeepSeek-R1 模型。这是体验 DeepSeek 能力最便捷的方式。移动端 App 可以在各大应用商店（App Store、华为应用市场等）下载。

6.2 API 调用

DeepSeek 提供 OpenAI 兼容的 API 接口，开发者可以轻松集成。API 调用示例：

# Python 调用 DeepSeek API 示例

import openai

client = openai.OpenAI(

    api_key="your-deepseek-api-key",

    base_url="https://api.deepseek.com"

)

response = client.chat.completions.create(

    model="deepseek-chat",

    messages=[

        {"role": "system", "content": "You are a helpful assistant"},

        {"role": "user", "content": "Hello!"}

    ],

    stream=True

)

for chunk in response:

    print(chunk.choices[0].delta.content, end="")

API 支持的主要模型：

deepseek-chat：DeepSeek-V3 对话模型（默认主力模型）
deepseek-reasoner：DeepSeek-R1 推理模型，擅长复杂推理任务
deepseek-coder：代码专用模型（部分历史版本）

6.3 本地部署

由于 DeepSeek 模型完全开源，开发者可以在本地或自有服务器上部署。常用的部署方式包括：

Ollama：最简单的本地部署方式，支持一键运行 DeepSeek 的蒸馏版本（如 deepseek-r1:7b、deepseek-r1:14b 等）
vLLM：高性能推理引擎，支持 DeepSeek-V3 的完整部署
llama.cpp：适合在 CPU 和边缘设备上运行量化版本
Hugging Face Transformers：通过 transformers 库直接加载和使用

硬件需求：DeepSeek-V3 完整版（671B 参数）需要多张高端 GPU（如 8×H100 80GB）才能运行。对于个人用户，推荐使用蒸馏版本（如 7B、14B、32B 参数量），可以用单张消费级 GPU 甚至纯 CPU 运行。

七、API 定价与性价比

7.1 DeepSeek API 定价

DeepSeek 的 API 定价以"极致性价比"著称，远低于同类产品。以下是截至 2025 年的定价参考：

模型	输入价格（每百万 tokens）	输出价格（每百万 tokens）	缓存命中价格
DeepSeek-V3 (deepseek-chat)	¥1.00（约 $0.14）	¥2.00（约 $0.28）	¥0.10（约 $0.014）
DeepSeek-R1 (deepseek-reasoner)	¥4.00（约 $0.55）	¥16.00（约 $2.19）	¥1.00（约 $0.14）

7.2 与竞品价格对比

模型/提供商	输入价格（每百万 tokens）	输出价格（每百万 tokens）	性价比指数
DeepSeek-V3	$0.14	$0.28	★★★★★
GPT-4o	$2.50	$10.00	★★☆☆☆
Claude 3.5 Sonnet	$3.00	$15.00	★★☆☆☆
Claude 3 Opus	$15.00	$75.00	★☆☆☆☆
Gemini 1.5 Pro	$1.25 - $2.50	$5.00 - $10.00	★★★☆☆
GPT-4o mini	$0.15	$0.60	★★★★☆

价格优势分析：DeepSeek-V3 的 API 价格仅为 GPT-4o 的 1/18（输入）和 1/36（输出），但模型性能在多项基准测试中与 GPT-4o 不相上下。这意味着开发者可以以极低的成本获得世界级的 AI 能力。对于高吞吐应用（如客服、内容生成、数据处理），使用 DeepSeek API 可以节省 90% 以上的成本。

7.3 极致性价比的来源

DeepSeek 能够提供如此低的价格，主要得益于以下几个方面：

MoE 架构：每个 token 只激活 5.5% 的参数，推理计算量大幅降低
MLA 注意力机制：大幅降低 KV Cache 显存消耗，提升推理吞吐
高效推理引擎：自研推理优化，支持更大的批处理大小
先亏后盈的定价策略：早期以极低价格吸引用户，建立开发者生态

八、DeepSeek 与主要竞品对比

8.1 多维度对比总览

对比维度	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet	Gemini 2.0 Flash
知识推理	优秀	优秀	优秀	良好
数学能力	优秀（R1 极强）	优秀	良好	良好
代码生成	优秀	优秀	优秀	良好
长文本理解	128K tokens	128K tokens	200K tokens	1M tokens
多模态	文本为主（不支持图像生成）	文本+图像+语音	文本+图像	文本+图像+语音+视频
推理速度	快（MoE 优势）	快	中等	极快
API 价格	极低	高	高	中等
开源	是	否	否	否
本地部署	支持	不支持	不支持	不支持
中文能力	极强	良好	良好	良好

8.2 DeepSeek 的优势

极致的性价比：同等性能下价格最低，让 AI 变得更加普惠
开源友好：完整的开源策略让开发者拥有最大程度的自由度和控制权
中文优化：中文理解和生成能力在所有大模型中处于顶尖水平
推理能力出众：R1 推理模型的表现可与 OpenAI o1 媲美，且开源可用
技术创新力强：MoE、MLA、FP8 训练等一系列系统级创新

8.3 DeepSeek 的不足

多模态能力有限：主要聚焦于文本模型，图像理解和生成能力相比 GPT-4o 和 Gemini 有差距
生态完善度：与 OpenAI 和 Anthropic 相比，开发者工具链、插件生态和第三方集成还不够丰富
品牌认知：在国际市场，品牌知名度和信任度仍需时间积累
服务稳定性：在访问高峰期，API 和网页版可能出现拥堵和响应变慢的情况
联网搜索：需要手动开启，且搜索质量相比 Perplexity 等专用产品有差距

量化基金做 AI 的独特优势

DeepSeek 对比其他 AI 公司，一个不常被讨论的优势是其"量化基因"：

成本意识极强：量化交易的本质是精打细算，追求最优的投入产出比。这种文化使得 DeepSeek 在每个环节都追求极致的效率
系统工程能力强：量化交易需要处理海量数据和复杂的计算，这培养了团队在大规模系统优化方面的深厚功力
不受短期盈利压力：有幻方量化作为后盾，DeepSeek 不需要像传统 AI 创业公司那样急于商业化，可以更专注于长期的基础研究

九、行业影响与争议

9.1 对 AI 行业格局的影响

DeepSeek 的出现对全球 AI 行业产生了结构性影响：

打破了"算力垄断"神话：DeepSeek 证明了即使在没有最先进的 GPU（受美国出口管制，只能用 H800 而非 H100）的情况下，通过系统级创新依然可以训练出顶级模型。这极大地鼓舞了受算力限制的团队
引发了"AI 价格战"：DeepSeek 的超低定价迫使 OpenAI、Anthropic、Google 等公司不断降价或推出更便宜的产品线。整个行业的 API 价格在 2024-2025 年下降了 80% 以上
重新定义了"开源"：DeepSeek 展示了开源模型可以在性能上与闭源模型正面竞争，推动了更多团队选择开源路线
股市冲击波：2025年1月 DeepSeek-R1 发布后，以英伟达（NVIDIA）为代表的 AI 算力股经历了剧烈波动，市场开始重新评估 AI 算力需求预期

"DeepSeek 的崛起让人想起当年 Android 对 iOS 的挑战——一个开放、灵活、低成本的生态系统，正在挑战封闭、昂贵但精致的生态系统。最终受益的将是全球的 AI 用户和开发者。"
—— 科技行业分析评论

9.2 成本优势引发的行业调整

DeepSeek 的成本优势引发了一系列连锁反应：

OpenAI：推出了 GPT-4o mini 等更便宜的模型系列，同时在 2025年多次下调 API 价格
Anthropic：推出 Claude 3.5 Haiku 等轻量级模型，优化定价策略
Google：大幅降低 Gemini 系列的定价，推出 Gemini 2.0 Flash 等经济型模型
Meta：加速 Llama 系列的开源步伐，发布更强大的开源模型

9.3 数据隐私与安全讨论

DeepSeek 的中国背景也引发了一些数据隐私和安全方面的讨论：

数据存储：用户的对话数据存储在中国境内的服务器上，受中国法律法规管辖
内容审查：模型在涉及某些敏感话题时可能表现出与西方模型不同的立场和回答方式
企业信任：一些西方企业和机构对使用中国公司的 AI 服务持谨慎态度
出口管制应对：DeepSeek 的成功展示了如何在芯片出口管制环境下依然做出世界级 AI 模型，这对全球科技格局产生了深远影响

关于数据隐私的客观视角：数据隐私问题并非 DeepSeek 独有。使用任何 AI 服务（包括 OpenAI、Anthropic、Google）都存在数据隐私和数据使用的考量。对于企业用户，DeepSeek 的本地部署能力实际上提供了最高的数据隐私保障——模型完全运行在自己的服务器上，数据不会离开企业网络。这与使用其他闭源 API 服务相比，在隐私保护上具有明显优势。

9.4 技术争议与挑战

DeepSeek 也面临一些技术和商业上的挑战：

模型幻觉控制：与其他大模型一样，DeepSeek 的模型也存在幻觉问题（生成看似合理但不正确的信息）
推理合规性：R1 模型的"推理可见"功能虽然透明，但也可能被滥用
长期盈利模式：目前的超低价策略能否持续，以及如何实现商业闭环，仍是市场关注的问题
人才竞争：随着知名度提升，核心团队可能面临其他科技巨头的高薪挖角

十、核心要点总结

1. 公司定位

DeepSeek 是一家由中国幻方量化孵化的 AI 公司，以"让 AI 更加普惠"为使命，通过技术创新大幅降低大模型的使用成本。

2. 技术核心

MoE（混合专家模型）架构是 DeepSeek 最核心的技术创新。DeepSeek-V3 以 671B 总参数、37B 激活参数实现了与 GPT-4o 媲美的性能，推理成本仅为同等 Dense 模型的 5.5%。

3. R1 推理模型

DeepSeek-R1 是首个开源的推理模型，采用强化学习训练，推理能力与 OpenAI o1 相当。它的开源标志着推理能力从闭源走向普惠的重大转折。

4. 开源策略

DeepSeek 采取"模型权重完全开源 + 技术论文详细公开"的策略，推动了全球开源大模型的发展，让更多研究者和开发者能够访问和使用最前沿的 AI 技术。

5. 性价比优势

DeepSeek API 的定价仅为 GPT-4o 的 1/18（输入）和 1/36（输出），是市场上性价比最高的大模型 API 之一。这一优势来源于架构创新而非低价倾销。

6. 行业影响

DeepSeek 的出现打破了"算力决定一切"的传统认知，引发了全球 AI 价格战，推动了整个行业向更高效、更廉价的方向发展。

7. 使用方式

可以通过网页版（chat.deepseek.com）、移动端 App、OpenAI 兼容 API 和本地部署四种方式使用 DeepSeek。其中网页版和 App 目前完全免费。

8. 局限与展望

DeepSeek 在多模态能力、国际品牌认知和生态完善度方面仍有提升空间。但凭借其强大的技术实力和开源策略，DeepSeek 有望在全球 AI 格局中扮演越来越重要的角色。

一句话总结：DeepSeek 是 AI 行业的一场"效率革命"——它用事实证明了通过系统级架构创新，可以用更少的资源做出世界级的大模型，让 AI 从奢侈品变成日用品，真正走向普惠。