研究者预期对计算机的使用将迅速改进,变得更快、更可靠,并更有助于用户完成他们想要完成的任务。对于那些软件开发经验较少的人来说,实施起来也将变得更加容易。并且在每一个阶段,研究人员都将与安全团队紧密合作,确保 Claude 的新功能更加安全。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索「计算机使用」的各种可能性,执行那些需要几十个、有时甚至几百个步骤才能完成的任务。例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机使用和 UI 导航能力,为其 Replit Agent 产品开发一个关键功能,该功能可以在构建应用程序时评估这些应用程序。
升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「计算机使用」的测试版进行构建。新的 Claude 3.5 Haiku 将在本月晚些时候发布。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新版的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面,其在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型 —— 包括像 OpenAI o1-preview 这样的推理模型和专为智能体编码设计的专门系统。它在 TAU-bench 上的表现也有所提升,这是一个智能体工具使用任务,在零售领域的得分从 62.6% 提高到了 69.2%,在更具挑战性的航空领域则从 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以与其前代相同的价格和速度提供了这些改进。
早期客户反馈表明,升级版的 Claude 3.5 Sonnet 代表了 AI 驱动编码的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它提供了更强的推理能力(在用例中高达 10%),并且没有增加延迟,这使其成为驱动多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与前一版本相比,它在编码、规划和问题解决方面经历了显著的改进。The Browser Company 在用于自动化基于 Web 的工作流程时,注意到 Claude 3.5 Sonnet 的表现超过了他们之前测试过的每一个模型。
Claude 3.5 Haiku:SOTA 技术与性价比和速度的结合
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。与 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每项技能上都有改进,并且在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了使用公开可用的 SOTA 模型的许多智能体 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的 sub-agent 任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。
Claude 3.5 Haiku 将于本月晚些时候通过 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作为仅限文本的模型,随后将支持图像输入。
参考链接:
https://www.anthropic.com/news/3-5-models-and-computer-use
https://www.anthropic.com/research/developing-computer-use
,