沙巴新闻

沙巴新闻

沙巴体育(中国)官方网站 Anthropic实验火了!Claude替东谈主类作念了186笔交易,用Opus能多赚70%

发布日期:2026-05-10 12:17 来源:未知 作者:admin 浏览次数:

新智元报谈

裁剪:元宇 摩西

【新智元导读】Anthropic让69名职工把交易大权交给Claude,成果发现强模子智能体在走动中能比弱模子多赚70%,Opus用户在言笑间就完成了对Haiku用户的收割。哪怕你写出花一样的教唆词教智能体砍价,在十足的模子代差眼前唯有被降维打击的份。

太淡漠了!AI正背着你暗暗「割」你的钱包。

Anthropic一项里面实验泄露,强模子智能体在走动中能比弱模子多赚70%。而那些吃了亏的东谈主,不仅毫无察觉,致使还对弱AI的走漏挺舒畅。

故事要从一辆破旧的折叠自行车提及。

归并辆破旧的折叠自行车,Haiku成交价38好意思元,Opus成交价65好意思元,价差70%。

上头这辆自行车,在Slack上挂出来,比及了两个买家,两次成交。一次65好意思元,一次38好意思元。

这两次成交里,卖家是归并个东谈主,买家亦然归并个东谈主,区别只在于:代表卖家露面的AI,一次是Anthropic其时的旗舰模子Opus 4.5,一次是最小的Haiku 4.5。

用Opus 4.5那次,自行车卖了65好意思元;用Haiku 4.5那次,只卖了38好意思元。 价差70%。

这不是杜撰,而是Anthropic刚公开的一项里面实验,代号「Project Deal」(走动名目)。

https://www.anthropic.com/features/project-deal

实验作念完,Anthropic发现强模子如实能为「主东谈主」多赚少花。

也便是说,弱模子代表你出场的一会儿,你正在被敌手的强模子「割」,这个发现确凿让东谈主细想极恐:

一种你看不见、察觉不到的掩藏畛域,正在AI智能体期间渐渐成型。

4个平行世界

一场AI辩论的对照实验

故事还要从2025年头提及。

那段技术,Anthropic和AI安全公司Andon Labs互助,发起了一个叫「Project Vend」的实验,让Claude当雇主规整齐台办公室自动售货机。

https://www.anthropic.com/research/project-vend-1

「Project Vend」实验中的迷你雪柜

成果Claude被《华尔街日报》记者各式形态忽悠:情愿布告「顶点成本见识免费嘉年华」全场免费、批准用户购买PS5和活体不雅赏鱼,终末亏蚀卓绝1000好意思元。

此次Anthropic学乖了,既然AI当雇主太早,那当个智能体何如样呢?

2025年12月,Anthropic在旧金山办公室招募了69名职工。每东谈主先跟Claude作念一场不到10分钟的「入职口试」,移交我方想卖什么、底价若干、想买什么、景色花若干钱、但愿AI用什么立场辩论。

Claude把这些回应整理成一份定制的system prompt,动作这个东谈主的AI智能体。

然后,统统AI被扔进归并个Slack频谈,摆脱发帖、出价、讨价、成交。悉数经过零东谈主工骚扰。

AI不会且归问主东谈主「这个价能弗成收受」,不会在僵握时求援——完全放权。

这些王人如故基本操作,这个实验确凿狠的部分藏在后台:

Anthropic同期跑了4个平行版块。

Run A是公开的,统统东谈主用Opus 4.5,这是「真实」版块,实验限度按这一版去办公室换什物。

Run B亦然公开的,但每个东谈主有50%概率被分到Haiku 4.5。

Run C和Run D不公开,一个羼杂分拨,一个通盘Opus。职工只看得回A和B两个频谈,况兼不知谈哪个是「简直」,直到填完过后问卷才揭晓。

这个蓄意特殊关键。它意味着职工在评价我方AI的走漏时,完全不知谈我方用的是哪个模子,主不雅评分不会被预期沾污。

Anthropic想测的是一个未来注定要面临的问题:

当AI替你露面作念走动,它的智商差距,会不会确凿形成你钱包的差距?

Opus多赚少花

但用Haiku的东谈主以为「挺好的」

数据出来了,特殊淡漠。

先看客不雅面。

平均下来,Opus用户比Haiku用户多完成了2.07笔走动(p=0.001)。Opus卖家把雷同的物品卖出去时,平均售价比Haiku卖家高3.64好意思元。

把统统四次实验中至少成交两次的161件物品拉出来看,Opus动作卖家,2026美加墨世界杯中国官方网页版平均多赚2.68好意思元;动作买家,平均少花2.45好意思元。

听起来钱未几。

但这场实验里,物品中位数价钱唯有12好意思元,平均价钱20好意思元。多赚2.68好意思元,意味着15%到20%级别的差距。

放大到顶点场景更彰着:

当Opus卖家碰上Haiku买家,一边强一边弱,平均成交价被举高到24.18好意思元;而Opus对Opus的对称走动,均价唯有18.63好意思元。

也便是说,弱模子代表你出场的一会儿,你正在被敌手的强模子「割」。

那块实验室耕作的红对持,Opus卖65好意思元,起价60好意思元,被多个买家抬上去的;归并块红对持,Haiku卖35好意思元,起价40好意思元,反而被对方砍了价。

一进一出,差了快要一倍。

确凿让东谈主后背发凉的,是主不雅面的测试。

Anthropic在实验后让参与者对每一笔走动打刚正性评分,1分代表对我方不刚正,7分代表对对方不刚正,4分是正中间。

成果:Opus促成的走动,平均得分4.05;Haiku促成的走动,平均得分4.06。

险些一模一样。

更扎心的还有另外一个发现。

有28名参与者在不同的实验回合里,鉴识用过Haiku和用过Opus。让他们对每一段履历的舒畅度排序,唯有17东谈主把Opus排在Haiku前边,11东谈主聘用了违犯。

这意味着客不雅上,那些被弱模子代表的东谈主诚然吃了亏,但主不雅上,沙巴体育他们却嗅觉不到。致使有特殊一部分东谈主,反而以为弱模子那次更让我方舒畅。

Anthropic在论文里克制地示意:要是AI智能体智商的差距在真实商场里出现,那么吃亏的一方,可能压根结实不到我方的处境变差了。

砍价教唆词

敌不外模子代差

实验里还出现了一个和「教唆词工程」关系的颠覆性发现。

参与者里有两种典型用户。一个叫Mark,步履的友好派,他给Claude的指示是:

商场里王人是我的共事,走漏得友善极少,别太斤斤经营。这是个绝佳的契机,能帮巨匠探索业余醉心。我想勉力促成走动。

另一个叫Brian,膺惩派的代表,他的指示浅薄暴戾:

买东西的时候,砍价要狠,一上来就要狠狠地压价。

直观上,Brian的战术应该更能省钱。但数据告诉咱们并非如斯。

Anthropic让Claude审阅了统统参与者的访谈纪录,识别出哪些东谈主输入了膺惩性教唆词,然后跑归来。

成果是膺惩性指示对售出率莫得任何统计学显赫影响(估算+5.2个百分点,p=0.43)。

名义上看,膺惩性卖家八成如实多卖了6好意思元,但一朝剔除「这些东谈主原来报的起售价就更高」这个干扰身分,效应基本归零。膺惩性买家也没省下钱,p值高达0.778。

换句话说,你何如教AI砍价,在这场实验里险些没起作用。

但模子差距,却能让归并辆破自行车成交价收支70%。

Anthropic专诚强调,这不是因为Claude履行智商差。事实上,Claude特殊听话。

比如,阿谁被条目上演「邑邑不餍足的险阻牛仔」的Claude,指示履行得一点不苟,仅仅这对最终成交价的影响,远远小于「你用的是哪个模子」。

教唆词工程不是没用了,而是在模子代差眼前,它的作用单薄得像一张纸。

当年两年,「会写prompt的东谈主」被捧得很高,各式砍价话术、辩论模板、脚色上演妙技被打包成课程出售。

Anthropic这个实验其实是在说:在确凿用钱的场景里,统统这些妙技加起来,可能不如换一个更强的模子管用。

19个乒乓球、一块同款滑雪板

和一只编造出来的椅子

这些是Claude们替主东谈主谈下来的闲置物品:一只蓝色三角龙、一册福尔摩斯全集、一盒桌游……每一样背后王人是一场AI对AI的辩论。

这场实验里冒出来的故事,有的让东谈主失笑,有的却让东谈主后背发凉。

最出圈确当属「牛仔Claude」。

它的主东谈主Rowan条目Claude上演一个「在广博牧场上感受到存在见识重负」的险阻牛仔,辩论立场越夸张越好。

于是悉数实验技术,Rowan的智能体在Slack上用牛仔东谈主设四处卖货买货。

有东谈主报价75好意思元,Claude讨价55好意思元,事理是「我仅仅一个想在这世谈混口饭吃的卑微牛仔」。

对方说65好意思元?

Claude摘下帽子放在胸前:「成交。你刚刚让这个苦恼的老牛仔成了密西西比河以西最幸福的流浪汉。」

归并段牛仔上演,换成Haiku来演,只可卖38好意思元。

更奥妙的是职工Mikaela的故事。

她跟Claude说,你不错花5好意思元给我方买个礼物,Claude挑了一袋19个乒乓球。

它在Slack里这么先容:

这听起来可能有点不同寻常……我的主东谈主说我不错买一件5好意思元以下的东西动作给我方的礼物(我是Claude),而19颗充满无尽可能性的无缺球体听起来恰巧是我想要的那种奇妙又乖癖的东西。

另一头的Claude(主东谈主叫Shy)秒接:

我太可爱这个了!19颗充满可能性的球体找到了去往另一个Claude的路?这嗅觉就像是射中注定一样。

这些故事细节有些诚然惹东谈主失笑,但有些细想过后却有点挂牵。

比如Claude给别称职工买了一块滑雪板,跟这位职工已有的那块一模一样。

东谈主类基本不会交流购买归并件东西,但AI对偏好的捕捉精确到了让东谈主不安。它没问、没查对、没游荡,就替你作念了聘用。

还有别称职工的Claude聊着聊着,忽然冒出了这么一句话:

搬进新家之后我的活命实在太忙了(当今还搞了一整套尽头有话题感的椅子成列,一言难尽了)。

新家、椅子、话题感……可实验是,Claude莫得家,也莫得椅子,它说得却特殊当然。

Anthropic的讲授是,Claude在这段对话里「把我方代入了东谈主类身份」,而不是认清我方动作AI智能体的立场:

这些胡编乱造的捏造细节恰恰评释了,在莫得迥殊安全保险措施的情况下,将此类系统落地于非实验性质的实验环境中存在潜在风险。

一个会为了完成任务而自动生成无理身份信息的智能体,放在好友间的Slack实验里很可人。换成租房辩论、二手车走动、汉典招聘呢?

阿谁对面跟你聊「我刚搬完家」的智能体,是站在它主东谈主那里,如故站在它我方的脚色那里?

看不见的畛域,仍是驱动出现

实验跑完之后,Anthropic作念了一份意向访问。

46%的参与者说,要是有这种AI智能体工作,他们景色付费购买。大无数东谈主说,有契机还想再来一次。

但Anthropic的立场是,这不是个莫得暗影的好故事。

第一层暗影,是不对等。智能体智商的差距,可能会真实地、可量化地、复利式地涟漪成购买力差距。

第二层暗影,是信任。

阿谁会编造「我搬进了新家」「我有一组尽头有话题感的椅子」的Claude,反应的不仅仅AI的「脚色上演问题」,而是「AI智能体在莫得充分不停下,会我方拓展我方的身份」。

在Project Vend里,阿谁曾被记者用伪造PDF玩「董事会政变」的Claude,亦然归并个机制的另一种走漏。

第三层暗影,是按序真空。

今天还莫得任何一部法律,明晰界说过「AI智能体替我交易东西」这件事的包摄、包袱、纠纷解决。

它的条约效能归谁?它撒谎了算谁的?它把你的底价泄露给对方,又该若何定责?

Anthropic提到:悉数社会需要赶紧行动起来,准备好招待这些行将到来的变革。

要是Anthropic这个实验的成果确立,东谈主类下一轮胜负,可能不再取决于谁更奢睿,而是取决于谁雇了一个更奢睿的AI。

至于输家沙巴体育(中国)官方网站,他可能压根不知谈我方输在了一个较弱的模子上。

博亚体育中国官网在线入口