近日,知名AI基准测试与情报机构Artificial Analysis发布了《2025 年第二季度中国人工智能现状报告》。该报告全面展示了2025年第二季度中国AI行业的发展现状,强调了中美AI技术的激烈竞争,以及中国AI企业在多模态模型、开源生态、推理能力等方面的快速成长和技术突破。报告认为,随着更多资本投入和技术创新,中国AI有望在未来几年在全球AI格局中占据更加重要的位置。
以下为该报告精华版版本的每页截屏分享(下载链接见文章底部)。
中国的领先AI实验室如今比以往任何时候都更接近美国领导者,领先优势已从一年以上缩小到不到三个月













以下为该报告精华版版本的每页截屏分享(下载链接见文章底部)。
中国的领先AI实验室如今比以往任何时候都更接近美国领导者,领先优势已从一年以上缩小到不到三个月
- 自2022年ChatGPT发布以来,美国和中国前沿语言模型之间的性能差距一直存在,但如今这一差距已缩小至历史最低水平。
- DeepSeek于2025年5月发布的开源权重模型R1引领了中国人工智能实验室的发展,而OpenAI的o3模型则主导了美国人工智能实验室所发布的模型。
- DeepSeek和阿里巴巴主要推动了中国的AI前沿发展,而美国AI前沿的进步则主要由OpenAI驱动。

- 中国的开源模型在2024年11月首次超越美国,当月阿里巴巴发布了QwQ 32B Preview模型,性能超过了 Meta的Llama 3.1(405B)。
- 中国AI实验室在开源模型上的领先,反映了其主流实验室愿意公开旗舰模型权重的战略。这与美国顶级实验室形成对比,例如OpenAI、Anthropic和 Google,它们通常不会开放其最先进模型的权重。
- 中国的DeepSeek R1模型(2025年1月发布),是首个在推理能力上能与OpenAI的o1模型相媲美的开源模型。
- DeepSeek的R1 0528版本(2025年5月发布),是目前全球最强的开源智能语言模型。

- 截至2025年5月,DeepSeek的R1 0528(2025年5月版)在智能水平上继续保持领先于阿里巴巴的Qwen3 235B A22B,成为来自中国人工智能实验室的最先进模型。
- 两家公司都采用了开源权重策略,推动其模型在国内及国际范围内的广泛应用与采纳。
- 在过去两年中,DeepSeek和阿里巴巴均频繁发布新模型——新款模型的发布时间通常仅比前一款晚大约三个月。

- DeepSeek在发布R1–0528 后,超越了xAI、Meta和Anthropic,与其它领先机构并列成为全球第二大人工智能实验室,并无可争议地成为了开源权重模型领域的领导者。
- R1-0528所实现的显著智能提升,完全来自于后训练(post-training)阶段的优化,而没有对原有的 V3/R1架构进行任何改动。该模型仍然是一个拥有6710亿参数的大型模型,其中370亿为活跃参数。
- 这一进展凸显了后训练技术在 AI 模型开发中日益增长的重要性,尤其是在使用强化学习(RL)方法训练推理模型的过程中。

- OpenAI 一直是人工智能智能前沿的明确领导者,但随着Google、xAI和 Anthropic等机构逐渐缩小差距,其领先地位已有所削弱。
- 截至2025年5月,OpenAI的o3仍然是美国最智能的模型,也是全球整体上最智能的模型。

- 中国AI行业参与者众多,涵盖了大型科技公司、AI初创企业和其他具有AI野心的技术公司。
- 这些公司在不同领域各具特色,共同推动了中国AI生态系统的多元化发展。
- 大型科技公司凭借其强大的资源和市场影响力在AI领域占据重要地位;AI初创企业则通过创新和技术突破成为推动AI发展的关键力量;其他技术公司也在积极探索AI应用,为行业注入新的活力。






- 在文本生成图像领域,中国和美国已实现实际上的平局,其中OpenAI的GPT-4o在ELO 评分上仅比字节跳动的Seedream 3.0高出4分。
- 文本生成图像领域的领先者来自全球多个地区,与由中美主导的语言模型不同,这一领域由专注于图像模型的小型初创企业推动发展。
- 一些较早发布的模型依然在与新模型的对比中表现出色,这表明图像生成模型的创新速度较语言模型要慢。比如Recraft V3(发布于2024年10月)尽管面临新对手,依然保持了强劲的竞争力。
- 美国在文本生成视频模型领域保持领先地位,谷歌的Veo 3 Preview 在人工分析视频竞技场中的ELO评分明显高于快手的可灵2.0。
- 中国公司在文本生成视频领域竞争力强劲,MiniMax和阿里巴巴等实验室的表现与OpenAI和Pika不相上下。

- 谷歌的 Veo 3 Preview在图像生成视频质量方面保持小幅领先,在人工分析视频竞技场中超越了快手的可灵2.0和Runway的 Gen 4。
- 视频生成模型的质量在不同输入模态之间可能差异很大,例如,像Sora这样的模型在文本生成视频方面表现出色,但在图像生成视频任务中表现较弱。
- 最近出现了一种趋势,即部分视频生成模型仅具备图像生成视频的能力,比如Runway Gen 4和Pika 2.2。

https://artificialanalysis.ai/downloads/china-report/2025/Artificial-Analysis-State-of-AI-China-Q2-2025-Highlights.pdf