主题分类

模型发布

22 篇文章

TechCrunch AI ·

OpenAI 在 API 中推出新语音智能功能

OpenAI 发布三项 Realtime API 新功能:GPT-Realtime-2 实现实时语音对话理解,GPT-Realtime-Translate 支持 70 余种语言的实时翻译,GPT-Realtime-Whisper 提供实时语音转文字服务。三款模型共同将实时音频从简单的问答推进到可听、可推理、可翻译、可转录并可采取行动的语音交互阶段。

Google DeepMind Blog ·

谷歌在 Gemini 应用中加入 AI 图像来源验证功能

谷歌在 Gemini 应用中推出 AI 图像来源验证功能,用户可上传任意图片并询问该图片是否由谷歌 AI 生成或编辑。核心技术是 SynthID 数字水印,通过在人眼不可见的信号层嵌入标识来实现来源追溯。谷歌计划将 SynthID 验证扩展至视频和音频,并支持 C2PA 内容凭证标准,推动全网 AI 生成内容的透明度建设。

Google DeepMind Blog ·

谷歌发布 Gemini 3:基准测试全面超越前代,编程能力再度突破

谷歌发布 Gemini 3 系列,其中 Gemini 3 Pro 在所有主流 AI 基准测试中均超越前代,编程能力更胜 2.5 Pro,熟练掌握智能体工作流和复杂零样本任务。该模型支持多模态理解、视觉推理和空间推理,可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 调用,也可使用 Google Antigravity 平台进行智能体开发。Gemini 3 还在 AI Studio 中解锁了"vibe coding"能力,用户可通过自然语言提示直接创建应用。