DoNews5月23日消息,Anthropic 公司在北京时间 5 月 23 日 0 点 30 分举办的活动中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现重大进步。
Claude Opus 4 被定位为 Anthropic 迄今最强大的模型,专为处理复杂的推理流程和软件开发场景设计。
测试数据显示,该模型在 SWE-bench 基准测试(评估模型解决真实 GitHub 问题的能力)中准确率达到 72.5%;在 TerminalBench 测试(在多步骤终端代码生成任务中验证模型表现)中准确率为 43.2%。