OpenAI 于 2015 年 12 月由 Sam Altman(前 Y Combinator 总裁)、Elon Musk、Greg Brockman(前 Stripe CTO)、Ilya Sutskever(前 Google Brain 研究员)、John Schulman、Wojciech Zaremba 等人在旧金山共同创立。公司最初定位为 非营利性 AI 研究机构,旨在以对人类最有利的方式开发和推广友好型通用人工智能(AGI),避免 AI 技术被少数大型企业垄断。
2019 年,OpenAI 经历了重大的组织结构变革。由于 AI 训练的高昂成本(尤其是计算资源),非营利模式难以为继。公司宣布创建 OpenAI LP,一种被称为 "capped-profit"(利润上限) 的新型公司结构。该结构允许公司接受外部投资并为投资者提供上限回报(最初设定为投资额的 100 倍回报上限),同时保留了非营利实体的治理监督权。
| 人物 | 角色 | 贡献与影响 |
|---|---|---|
| Sam Altman | 联合创始人、CEO(多数时期) | 公司的核心领导者和对外代言人,主导了公司的战略方向和融资 |
| Greg Brockman | 联合创始人、前总裁、现 Chairman | 负责技术团队管理和工程架构,2023 年 11 月 CEO 风波后短暂离职后回归 |
| Ilya Sutskever | 联合创始人、前首席科学家 | 深度学习的重量级人物,主导了 GPT 系列的核心研究,2024 年离开 OpenAI 创立 Safe Superintelligence Inc. (SSI) |
| Mira Murati | 前 CTO(2018-2024) | 领导了 ChatGPT、DALL-E 等产品的开发和部署,2024 年离开公司 |
| Elon Musk | 联合创始人(2015-2018) | 早期捐助者和推动者,2018 年离开董事会,后创立 xAI 公司及 Grok 模型 |
OpenAI 的公司结构在科技行业中是独一无二的:非营利实体 OpenAI Inc. 控制着营利实体 OpenAI Global LLC 的董事会。这种结构在 2023 年 11 月的"CEO 解雇风波"中暴露了其内在的矛盾——非营利董事会有权解雇 CEO,而投资者(尤其是 Microsoft)却没有直接投票权。
"ChatGPT 在发布后两个月内达到 1 亿月活用户——TikTok 花了 9 个月,Instagram 花了 2.5 年。这是消费互联网历史上从未有过的增长速度。"
ChatGPT 是 OpenAI 面向消费者市场的旗舰产品,提供基于对话界面的 AI 助手服务。目前提供多种版本:
OpenAI 提供了一套完整的 API 服务,允许开发者将 GPT 模型集成到自己的应用中:
DALL-E 是 OpenAI 的文本到图像生成模型系列:
Whisper 是 OpenAI 开源的自动语音识别(ASR)系统,支持 99 种语言的语音转录和翻译。具有以下特点:
Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频生成模型,能够生成最长 60 秒的高质量视频。其核心技术特点:
Codex 是 OpenAI 基于 GPT-3 构建的代码生成模型,是 GitHub Copilot 的底层引擎。虽然 Codex 本身已被后续模型取代,但其技术贡献巨大:
OpenAI 的产品策略可以概括为:以 GPT 基础模型为核心,向多模态(图像生成 DALL-E、视频生成 Sora、语音 Whisper)和应用层(ChatGPT、API)两个方向延伸,同时通过 o1/o3 推理模型系列拓展"推理"这一新的能力维度。
GPT(Generative Pre-trained Transformer)系列模型代表了 OpenAI 在自然语言处理领域的核心技术路线。其核心思想是:通过大规模无监督预训练学习语言知识,再通过有监督微调适应具体任务。
GPT-3 首次系统性地展示了这一现象:在推理时给模型提供少量示例(Few-shot),模型即能"学会"执行新任务,而无需任何参数更新。这种能力被解释为模型在预训练阶段已经积累了足够多的"隐式任务模板",推理时仅仅是通过提示去"检索"出对应的能力。
| 模型 | 发布时间 | 参数规模 | 关键创新 |
|---|---|---|---|
| GPT-1 | 2018.06 | 1.17 亿 | 生成式预训练范式验证 |
| GPT-2 | 2019.02 | 15 亿 | 零样本迁移能力 |
| GPT-3 | 2020.06 | 1750 亿 | In-Context Learning |
| GPT-3.5 | 2022.03 | 1750 亿 | RLHF 对齐 |
| GPT-4 | 2023.03 | ~1.7 万亿(MoE) | 多模态、MoE架构 |
| GPT-4 Turbo | 2023.11 | ~1.7 万亿(MoE) | 128K上下文、更低价格 |
| GPT-4o | 2024.05 | 未公开 | 原生多模态、实时语音 |
| GPT-4.5 | 2025.02 | 最大规模 | 知识广度、创造力 |
2024-2025 年,OpenAI 推出了全新的 o1 和 o3 推理模型系列(注意命名跳跃——跳过了 "o2" 以避免与英国电信公司 O2 的商标冲突)。这代表了 OpenAI 在模型能力上的一个全新方向:在推理时进行深度思考。
"o1 模型在数学竞赛中的表现达到了博士生水平。在 AIME 2024 中,GPT-4o 的正确率约为 12%,而 o1 达到了 74%,o1-92% 版本更是达到了竞赛前 500 名的水平。这是一个质的飞跃。"
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常对话、创意写作、头脑风暴 | GPT-4o / GPT-4.5 | 快速响应,语言自然流畅,创造力强 |
| 复杂编程、算法题、调试 | o1 / o3-mini | 深度推理能力,能够发现细微的逻辑错误 |
| 数学证明、科学研究 | o1 / o3 | 严谨的逻辑链和推导过程 |
| 数据分析和报告 | GPT-4o | 平衡了推理能力和表达效率 |
| 高难度竞赛级题目 | o3 | 最强大的推理能力 |
推理模型需要更多的"思考时间",因此其推理成本(延迟和计算开销)远高于传统 GPT 模型。OpenAI 的设计理念是让用户根据任务复杂度来决定是否启用推理——对于简单问题使用 GPT-4o 快速回复,对于复杂问题启用 o1/o3 深度思考。
OpenAI 的 API 接口经历了多次迭代,从最初的文本补全(Completion)API 发展到今天的功能丰富的平台:
Function Calling 是 OpenAI API 的核心功能之一,于 2023 年 6 月随 GPT-4 更新推出。它允许模型在需要时输出结构化的函数调用参数,而不是纯文本回复:
Function Calling 的核心价值在于:
2023 年 11 月推出的 Assistants API 提供了更高层次的抽象,使开发者能更容易地构建 AI 助手:
OpenAI 允许用户使用自己的数据对基础模型进行微调,以获得针对特定领域的优化表现:
GPT-4o 及后续模型支持了 Prompt Caching 功能——当 API 调用中的提示前缀与前一次调用相同时,系统会自动缓存并复用已计算的部分,最高可提供 50% 的延迟降低和成本节省。这对于需要反复使用相同系统提示(system prompt)的 Agent 应用和 RAG 场景特别有价值。
OpenAI API 采用 按 token 计费 的模式,不同模型有不同的定价层级:
OpenAI 的收入主要来源于三个渠道:
据 2024 年底的公开报道,OpenAI 的年化收入已经突破 100 亿美元,成为有史以来增长最快的软件公司之一。
| 时间 | 融资轮 | 金额 | 主要投资方 | 估值 |
|---|---|---|---|---|
| 2015 | 创立捐赠 | ~$10 亿(承诺) | Elon Musk 等 | N/A(非营利) |
| 2019 | 战略投资 | $10 亿 | Microsoft | ~$290 亿 |
| 2023.01 | 战略投资 | $100 亿 | Microsoft | ~$290 亿 |
| 2023.10 | 二级交易 | ~$3 亿 | Thrive Capital | $800 亿 |
| 2024.02 | 二级交易 | ~$80 亿 | Thrive Capital 等 | $860-900 亿 |
| 2024.10 | Series... | $66 亿 | Thrive Capital, Microsoft, Nvidia, SoftBank 等 | $1570 亿 |
OpenAI 与 Microsoft 的合作关系是当今科技行业最重要的战略联盟之一:
截至 2025 年,OpenAI 已成为全球估值最高的 AI 初创公司,在 AI 赛道上占据了独特的位置:
Anthropic 于 2021 年由 Dario Amodei(前 OpenAI 研究副总裁)和 Daniela Amodei(前 OpenAI 安全政策负责人)共同创立。核心团队成员主要来自 OpenAI——他们因对 OpenAI 日益商业化、安全性关注不足等方向性分歧而出走创办 Anthropic。
| 维度 | OpenAI | Anthropic |
|---|---|---|
| 安全方法 | RLHF + 红队测试 + 使用政策 | Constitutional AI(CAI)+ 可解释性研究 |
| 模型哲学 | "越大越好",追求参数规模带来的能力涌现 | "安全第一",在安全和能力之间寻求平衡 |
| 商业模式 | 消费者级产品(ChatGPT)+ API + 企业合作 | API 为主 + Claude Pro 订阅 |
| 开源态度 | GPT-2 后基本闭源(仅有限研究披露) | 不完全开源,但发表详细技术论文 |
| 公司治理 | 非营利控制营利,治理架构复杂且存在矛盾 | Public Benefit Corporation(公益公司) |
| 对比项 | OpenAI | Anthropic |
|---|---|---|
| 旗舰模型 | GPT-4o | Claude Opus 4.5 / 4.6 / 4.7 |
| 经济模型 | GPT-4o mini | Claude Haiku |
| 速度模型 | GPT-4o(速度快) | Claude Sonnet(速度快) |
| 推理模型 | o1 / o3 推理系列 | Claude Opus(内置推理能力) |
| 上下文窗口 | 128K tokens(GPT-4o) | 200K tokens(Claude 所有模型) |
| 多模态 | GPT-4o 原生多模态(文本+图像+音频) | Claude 支持图像理解和文档分析 |
| 代码生成 | 通过 GPT-4o API 或 Copilot | Claude Code(命令行 AI 编程工具) |
| 消费者产品 | ChatGPT(网页+App+桌面) | Claude.ai(网页+App) |
| API 特色 | Assistants API、Function Calling、Realtime API | 提示缓存(Prompt Caching)、Tool Use、批量 API |
尽管 OpenAI 在用户规模上领先,但 Claude 系列模型在开发者社区的净推荐值(NPS)和满意度评分上往往更高。许多开发者认为 Claude 在编程、长文档处理和有助益性方面胜过 GPT 系列。两家公司在技术能力和市场份额上呈现出"相互追赶、各有千秋"的局面。
OpenAI 在 AI 安全方面的立场一直是争议焦点:
"在过去的几年里,OpenAI 的安全文化和流程已经被闪亮的产品所取代。"——Jan Leike,前 OpenAI 超级对齐团队联合负责人,2024 年 5 月辞职时在 X 上发表的声明
2023-2025 年期间,OpenAI 经历了严重的人才流失:
OpenAI 独特的非营利控制营利结构引发了持续不断的治理争议:
OpenAI 的名字中包含 "Open",但其模型自 GPT-3 以来一直保持闭源:
归根结底,OpenAI 面临的是一个无法回避的"三元悖论":在 速度(快速迭代商业产品)、安全(充分验证确保安全) 和 开放(保持透明和开放) 这三个目标之间,几乎不可能同时实现。公司的每一个重大决策,实际上都是在三者之间的权衡取舍。