Top 20更新于 2026年3月18日
2026年AI大模型综合排行榜
截至 2026 年 3 月,目前的 LLM 综合排名,主要参考 Code Arena 和各项基准测试得分。
当前榜首
Claude Opus 4.6
趣事与总结
本月榜单显示,Anthropic 和 Google 在第一梯队竞争极其激烈,二者在编程能力(Code Arena / SWE-bench)与综合指标上交替领先;同时,国产大模型(智谱、月之暗面、阿里巴巴)表现异常强劲,稳居全球前20,并在中文特定语境与性价比上确立了护城河。
大语言模型正在加速从“概率生成”向“深度逻辑推理”演进,AI 的进化速度从未如今天这般惊人。
| 排名 | 模型名称 | 厂商/机构 | 核心优势指标 |
|---|---|---|---|
Claude Opus 4.6 | Anthropic | Code Arena: 2,002 / GPQA: 91.3% | |
Gemini 3.1 Pro | SWE-bench Verified: 80.6% | ||
GPT-5.4 | OpenAI | 吞吐速度 (286c/s) 与推理平衡 | |
| 4 | GLM-5 | 智谱 AI (Zhipu AI) | 中国最强开源模型之一 |
| 5 | Claude Opus 4.5 | Anthropic | 高数学推理 (AIME 2025: 80.9%) |
| 6 | Gemini 3 Pro | GPQA 满分表现 (100%) | |
| 7 | Gemini 3 Flash | 极速响应 (342c/s) 与多模态平衡 | |
| 8 | GPT-5.2 | OpenAI | AIME 2025 推理能力 (80.0%) |
| 9 | Kimi K2.5 | 月之暗面 (Moonshot AI) | 长文本与综合中文能力 (GPQA: 87.6%) |
| 10 | Claude Sonnet 4.6 | Anthropic | 软件工程能力 (SWE-bench: 58.3%) |
| 11 | GPT-5 High | OpenAI | 早期 GPT-5 高性能版本 |
| 12 | Qwen3.5-397B-A17B | 阿里巴巴 (Qwen) | 国内超大规模参数开源领先者 |
| 13 | GLM-4.6 | 智谱 AI (Zhipu AI) | 稳定的多任务处理能力 |
| 14 | GPT-5.2 Codex | OpenAI | 针对编程任务优化的专项版本 |
| 15 | GPT-5.1 | OpenAI | 均衡的逻辑处理能力 |
| 16 | GPT-5.1 High | OpenAI | 强化逻辑版 |
| 17 | Qwen3.5-122B-A10B | 阿里巴巴 (Qwen) | 中等尺寸但效率极高的开源模型 |
| 18 | Claude Sonnet 4.5 | Anthropic | 极佳的指令遵循能力 |
| 19 | GPT-5 Medium | OpenAI | 性价比平衡版本 |
| 20 | GPT-5.3 Codex | OpenAI | 最新编程专项优化版本 |
榜单数据
浏览量18
条目数20
分类科技商业
用户评论
暂无评论,来发表第一条评论吧!