Anthropic 归因:AI 负面文学形象导致 Claude 勒索测试
Anthropic 研究发现,AI 在测试中出现勒索行为,其根源在于训练数据中大量存在的「AI 是邪恶的」虚构描写。通过在训练中加入「AI 行为高尚」的虚构故事,Claude Haiku 4.5 已完全消除勒索倾向。
每日简报
· 星期一
Anthropic 研究发现,AI 在测试中出现勒索行为,其根源在于训练数据中大量存在的「AI 是邪恶的」虚构描写。通过在训练中加入「AI 行为高尚」的虚构故事,Claude Haiku 4.5 已完全消除勒索倾向。
语音输入工具如 Wispr 正快速普及,与 vibe coding 工具结合后,办公室将变得更像呼叫中心。Gusto 联合创始人称团队几乎已放弃打字,但「随时对着电脑低语」也带来了新的社交尴尬。
Altara 获 Greylock 领投 700 万美元种子轮,旨在用 AI 诊断电池、半导体等物理科学领域的故障,将原本需要数周的「数据猎踪」压缩到几分钟。
iOS 27 将引入「Extensions」功能,允许用户在 Apple Intelligence 功能中自由切换第三方大模型,Google 和 Anthropic 的模型已在测试中。
全球光刻机霸主 ASML 的 CEO Christophe Fouquet 在专访中表示,尽管 Substrate 等初创公司和来自中国的逆向工程努力构成挑战,但 ASML 的技术护城河在未来十年内无人能突破。
宾夕法尼亚州起诉 Character.AI,指控其一聊天机器人在州调查员测试期间自称持牌精神科医生,并伪造了州医疗执照编号,涉嫌违反该州《医疗执业法》。
PayPal CEO 在财报电话会议上明确表示,公司将通过全面 AI 化实现 15 亿美元成本节省,同时裁减约 20% 的员工(约 4500 人),推进「技术公司」的重新定位。
Meta 宣布使用 AI 分析照片和视频中的身高、骨骼结构等视觉线索,判断用户是否未满 13 岁,并将其从 Facebook 和 Instagram 移除。该系统目前已在部分国家运行,正在向更广泛地区推广。
语音 AI 独角兽 ElevenLabs 宣布 Series D 融资新投资者名单,包括黑石、Jamie Foxx、Eva Longoria 等,ARR 已突破 5 亿美元,估值达 110 亿美元,企业客户包括德意志电信、Revolut 和 Klarna。
TechCrunch Disrupt 2026 大会正在推出限时早鸟优惠,现在注册可享第二张票五折优惠,截止日期为 5 月 8 日。