OpenAI 发布三项 Realtime API 新功能：GPT-Realtime-2 实现实时语音对话理解，GPT-Realtime-Translate 支持 70 余种语言的实时翻译，GPT-Realtime-Whisper 提供实时语音转文字服务。三款模型共同将实时音频从简单的问答推进到可听、可推理、可翻译、可转录并可采取行动的语音交互阶段。

模型发布企业应用智能体·工具

Google DeepMind Blog · 2026-05-06

AlphaEvolve：Gemini 驱动的编程智能体如何在各领域扩大影响力

Google DeepMind 博客详细介绍了 AlphaEvolve 如何利用 Gemini 驱动的算法推动商业、基础设施和科学领域的研究进展。该系统通过自动化的算法发现流程，在数学证明、芯片设计和工程优化等任务上取得了突破性成果。

论文·研究模型发布

TechCrunch AI · 2026-05-05

苹果 iOS 27：用户自选 AI 模型，应用生态的「自助餐」模式

iOS 27 将引入「Extensions」功能，允许用户在 Apple Intelligence 功能中自由切换第三方大模型，Google 和 Anthropic 的模型已在测试中。

消费应用模型发布

TechCrunch AI · 2026-04-30

Stripe 推出 Link：面向 AI 智能体的数字钱包

Stripe 宣布推出 Link，一款支持 AI 智能体自主完成支付的数字钱包，标志着支付基础设施正式向 AI 原生应用场景延伸。

企业应用智能体·工具模型发布

TechCrunch AI · 2026-04-29

Gemini 更多功能登陆 Google TV，AI 助手加速进入家庭客厅

Google 宣布将更多 Gemini AI 功能引入 Google TV 平台，进一步推动 AI 助手进入家庭客厅场景，智能电视正在成为 AI 分发的关键终端之一。

消费应用模型发布智能体·工具

MIT Technology Review · 2026-04-27

DeepSeek V4 突破，世界模型竞赛白热化

MIT《The Download》解读 DeepSeek 周五发布的 V4 预览版三大亮点：超长上下文、推理成本骤降、对标 GPT-5。同时全球世界模型（World Models）赛道竞争升温。

中国 AI 模型发布行业趋势

Google DeepMind Blog · 2025-12-12

Gemini音频模型全面升级：实时语音代理进入生产级可用时代

谷歌升级Gemini 2.5 Flash原生音频模型，显著提升函数调用、指令理解和对话流畅度。实时语音翻译功能正在美国、墨西哥和印度的安卓版谷歌翻译应用中推送测试，企业应用场景包括Shopify Sidekick和美威抵押贷款的AI助理。

模型发布企业应用消费应用

Google DeepMind Blog · 2025-11-20

谷歌在 Gemini 应用中加入 AI 图像来源验证功能

谷歌在 Gemini 应用中推出 AI 图像来源验证功能，用户可上传任意图片并询问该图片是否由谷歌 AI 生成或编辑。核心技术是 SynthID 数字水印，通过在人眼不可见的信号层嵌入标识来实现来源追溯。谷歌计划将 SynthID 验证扩展至视频和音频，并支持 C2PA 内容凭证标准，推动全网 AI 生成内容的透明度建设。

模型发布安全·对齐行业趋势

Google DeepMind Blog · 2025-11-20

谷歌推出Nano Banana Pro：全新Gemini 3专业图像生成模型

谷歌发布Gemini 3专业图像模型，可生成高保真图像，具备精准的文字渲染能力，并可通过谷歌搜索进行知识检索与实时内容对齐，在多项图像生成基准测试中领先同类竞品。

模型发布企业应用论文·研究

Google DeepMind Blog · 2025-11-18

谷歌发布 Gemini 3：基准测试全面超越前代，编程能力再度突破

谷歌发布 Gemini 3 系列，其中 Gemini 3 Pro 在所有主流 AI 基准测试中均超越前代，编程能力更胜 2.5 Pro，熟练掌握智能体工作流和复杂零样本任务。该模型支持多模态理解、视觉推理和空间推理，可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 调用，也可使用 Google Antigravity 平台进行智能体开发。Gemini 3 还在 AI Studio 中解锁了"vibe coding"能力，用户可通过自然语言提示直接创建应用。

模型发布智能体·工具行业趋势

Google DeepMind Blog · 2025-11-13