Amazon Alexa+ 新功能:可按需生成播客节目
Amazon 升级 Alexa+ 后,助手已支持按需生成定制化 AI 播客,标志着 Alexa 从语音问答工具向个性化 AI 内容平台的大幅扩展。
主题分类
Amazon 升级 Alexa+ 后,助手已支持按需生成定制化 AI 播客,标志着 Alexa 从语音问答工具向个性化 AI 内容平台的大幅扩展。
OpenAI架构再调整,联合创始人Greg Brockman亲自接管产品战略。据悉公司正计划将ChatGPT与其编程工具Codex进行整合,统一AI产品线。
OpenAI在年度开发者活动上正式宣布,Codex编程助手将在未来数周内推出iOS和Android版本,并承诺为移动端重新设计交互界面,以适配触屏编程场景。
OpenAI宣布将其桌面AI编程工具Codex整合进ChatGPT手机应用,用户可在移动端使用Codex的编程与应用操控能力。此举紧随Anthropic旗下Claude Code的崛起,OpenAI正加速追赶,包括砍掉部分非核心项目以集中资源。
Anthropic Claude Code 与 Cowork 产品负责人 Cat Wu 表示,AI 的下一阶段重大飞跃是主动化:系统将提前预判用户需求,无需等待明确指令即可采取行动。这代表了 AI 从响应式工具向预测性伙伴的根本转变。
Meta在其即时通讯应用WhatsApp中加入AI对话隐身模式,用户开启后与Meta AI的对话不会被保存,关闭聊天窗口后消息默认自动消失。这是主流社交应用首次在AI对话场景中引入消失消息机制。
本周,五位深度参与AI供应链各层的人士齐聚米尔肯研究院全球大会,就芯片短缺、轨道数据中心乃至支撑整个AI产业的基础架构等话题,与TechCrunch进行了全面讨论。结论:现状并不稳固。
OpenAI 发布三项 Realtime API 新功能:GPT-Realtime-2 实现实时语音对话理解,GPT-Realtime-Translate 支持 70 余种语言的实时翻译,GPT-Realtime-Whisper 提供实时语音转文字服务。三款模型共同将实时音频从简单的问答推进到可听、可推理、可翻译、可转录并可采取行动的语音交互阶段。
Google DeepMind 博客详细介绍了 AlphaEvolve 如何利用 Gemini 驱动的算法推动商业、基础设施和科学领域的研究进展。该系统通过自动化的算法发现流程,在数学证明、芯片设计和工程优化等任务上取得了突破性成果。
iOS 27 将引入「Extensions」功能,允许用户在 Apple Intelligence 功能中自由切换第三方大模型,Google 和 Anthropic 的模型已在测试中。
Stripe 宣布推出 Link,一款支持 AI 智能体自主完成支付的数字钱包,标志着支付基础设施正式向 AI 原生应用场景延伸。
Google 宣布将更多 Gemini AI 功能引入 Google TV 平台,进一步推动 AI 助手进入家庭客厅场景,智能电视正在成为 AI 分发的关键终端之一。
MIT《The Download》解读 DeepSeek 周五发布的 V4 预览版三大亮点:超长上下文、推理成本骤降、对标 GPT-5。同时全球世界模型(World Models)赛道竞争升温。
谷歌升级Gemini 2.5 Flash原生音频模型,显著提升函数调用、指令理解和对话流畅度。实时语音翻译功能正在美国、墨西哥和印度的安卓版谷歌翻译应用中推送测试,企业应用场景包括Shopify Sidekick和美威抵押贷款的AI助理。
谷歌在 Gemini 应用中推出 AI 图像来源验证功能,用户可上传任意图片并询问该图片是否由谷歌 AI 生成或编辑。核心技术是 SynthID 数字水印,通过在人眼不可见的信号层嵌入标识来实现来源追溯。谷歌计划将 SynthID 验证扩展至视频和音频,并支持 C2PA 内容凭证标准,推动全网 AI 生成内容的透明度建设。
谷歌发布Gemini 3专业图像模型,可生成高保真图像,具备精准的文字渲染能力,并可通过谷歌搜索进行知识检索与实时内容对齐,在多项图像生成基准测试中领先同类竞品。
谷歌发布 Gemini 3 系列,其中 Gemini 3 Pro 在所有主流 AI 基准测试中均超越前代,编程能力更胜 2.5 Pro,熟练掌握智能体工作流和复杂零样本任务。该模型支持多模态理解、视觉推理和空间推理,可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 调用,也可使用 Google Antigravity 平台进行智能体开发。Gemini 3 还在 AI Studio 中解锁了"vibe coding"能力,用户可通过自然语言提示直接创建应用。
SIMA 2 是 DeepMind 第二代具身智能体,由 Gemini 驱动,可以在《Minecraft》《GTA V》等多种 3D 交互环境中理解指令、规划、推理并采取行动。
Google 宣布 Gemini 2.5 Flash-Lite 结束预览阶段,正式 GA。具备 100 万 token 上下文窗口和多模态输入能力,单价仅为 Flash 标准版的 1/3,主打高吞吐场景。
Gemini 2.5深度思考模型在全球最具权威的大学生编程竞赛中取得突破性成绩,展示了抽象问题解决能力的重大飞跃。该模型在半小时内解决了全场没有任何一支大学队伍解决的最难题。
DeepMind 发布 Gemini Robotics 1.5,实现机器人感知、规划、思考、使用工具与行动的全链路一体化模型,迈向通用具身智能体的关键一步。
由于开发者反馈强烈,谷歌提前两周发布Gemini 2.5 Pro更新版本,重点提升了编程能力,降低了函数调用错误率,并改善了触发准确率,现已可通过谷歌AI Studio和Vertex AI使用。