Claude 3.5 Haiku 模型发布! Claude 3.5 Sonnet 重大升级,可操作计算机 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
spoock1024
V2EX    OpenAI

Claude 3.5 Haiku 模型发布! Claude 3.5 Sonnet 重大升级,可操作计算机

  •  
  •   spoock1024 2024 年 10 月 23 日 3026 次点击
    这是一个创建于 489 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Claude 3.5 Haik 模型发布

    刚刚,Anthropic 宣布推出Claude 3.5 HaikuClaude 3.5 Sonnet 进行升级,同时推出了公测版的 computer use 功能,教 AI 像人一样操作计算。

    也就是 Claude 能够模仿人类的方式使用电脑,它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。

    Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。

    开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。

    Claude 模拟人类的电脑交互

    • 屏幕查看:AI 能够“查看”计算机屏幕上的内容,识别界面元素,并根据指令进行交互。
    • 光标移动:Claude 3.5 能够模拟光标移动,准确定位目标区域,模仿人类在界面上的操作。
    • 点击按钮:模拟鼠标点击,执行界面上的按钮操作,推动任务的进一步完成。
    • 输入文本:AI 可以在文本框中输入数据,支持表单填写、文档编辑等任务。

    自动化复杂的多步骤任务

    • 任务自动化:AI 可自动执行多个步骤的复杂任务,如填写在线表格、数据检索、提交报告等,减少人工操作时间。
    • 多步骤导航:能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等完成多步骤任务。

    指令翻译与执行

    • 指令翻译:开发者可以给 AI 发出高层次的指令,例如“用电脑上的数据填写表格”,Claude 3.5 能够将这些指令翻译成具体的电脑操作步骤。
    • 基于 UI 的工作流:不仅可执行单步操作,还可在用户界面中基于任务要求实现多步骤的工作流。

    Claude 3.5 Sonnet 改进

    • 该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。
    • 在编程测试( SWE-bench Verified )中表现提高到 49%,在零售领域的工具使用测试( TAU-bench )中提升至 69.2%,航空领域则达到了 46%。
    • 新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。

    Claude 3.5 Sonnet 更强的编程能力

    • 显著提升编程任务性能:
      • Claude 3.5 Sonnet 在 SWE-bench Verified 编程测试中的得分从 33.4% 提高到 49.0%,表现优于所有其他公开可用的模型(包括 OpenAI 的 o1-preview 和专用的编程模型)。
    • 更好的推理与工具使用:
      • 在零售领域的 TAU-bench 工具使用测试中得分从 62.6% 提升到 69.2%;在航空领域的挑战性更大的测试中,从 36.0% 提升到 46.0%。
    • 改进的多步任务处理:
      • 新版 Sonnet 在 DevSecOps (开发与安全操作)任务中表现更优,有高达 10% 的推理能力提升,且保持与前代相同的响应速度。

    Claude 3.5 Sonnet 适用更多开发环境

    • 高效编程:
      • Claude 3.5 Sonnet 在多步软件开发过程中表现更优,对 AI 代理、工具使用和自动化任务等应用更具优势。
    • 企业合作测试:
      • 经过美国和英国 AI 安全研究所的联合预部署测试,确保在关键场景下的性能稳定性与安全性。
    • 用于 DevSecOps 和自主 AI 评估:
      • 例如,GitLab 在测试中发现该模型在 DevSecOps 任务上推理更准确,Cognition 公司则利用其在编码、规划和问题解决方面的提升,用于自动 AI 评估。

    Claude 3.5 Haiku 正式发布

    Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus ,同时保持了低延迟和高指令跟随能力。该模型适用于用户界面任务、个性化体验生成等需求。

    • Claude 3.5 Haiku 是目前速度最快的模型,同时在多项智能基准测试中表现超越了 Claude 3 Opus 。
    • 在编程测试( SWE-bench Verified )中,Claude 3.5 Haiku 的得分为 40.6%,超过许多其他先进模型(如原版 Claude 3.5 Sonnet 和 GPT-4o )。
    • 该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。
    • 特别适用于用户界面任务、个性化体验生成和大规模数据处理(如购买记录、定价或库存记录)。

    Claude 3.5 Haiku 主要功能与优势

    • 高速度与低延迟: 该模型在响应速度上更快,保持高效的指令跟随能力,适合各种实时应用场景。
    • 指令跟随的改进: 能够准确理解和执行复杂任务,包括编程、工具使用等,这使得它在多步骤任务中的表现尤为出色。
    • 适合多场景的应用: 无论是用于专门的子代理任务、用户界面任务,还是需要处理大量个性化数据的场景,Claude 3.5 Haiku 都表现出色。

    Claude 3.5 Haiku 将在本月晚些时候上线,用户可以通过 Anthropic 的 API 、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问该模型。

    初期版本将仅支持文本输入,未来会加入图像输入功能,进一步扩展其应用范围。

    Claude 3.5 Haiku 模型发布! Claude 3.5 Sonnet 重大升级

    5 条回复    2024-10-23 09:07:45 +08:00
    haimianbihdata
        1
    haimianbihdata  
       2024 年 10 月 23 日 via Android
    这不高级 rpa 了?
    ziseyinzi
        2
    ziseyinzi  
       2024 年 10 月 23 日   2
    面向 SEO 写作的范例
    jhytxy
        3
    jhytxy  
       2024 年 10 月 23 日 via iPhone
    这回厉害了
    TimePPT
        4
    TimePPT  
    PRO
       2024 年 10 月 23 日 via Android
    这种无营养内容简直是毒瘤。想要外链打推广节点去
    ninvfeng
        5
    ninvfeng  
    PRO
       2024 年 10 月 23 日 via Android
    这个操作电脑得怎么用?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     883 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:46 PVG 01:46 LAX 09:46 JFK 12:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86