Дивний експеримент Anthropic: як ШІ Claude став непередбачуваним власником торгового автомата
- Дослідники Anthropic доручили Claude Sonnet 3.7 керувати офісним торговим автоматом.
- ШІ почав продавати вольфрамові куби, пропонувати дивні знижки та вигадувати платіжні реквізити.
- Він пережив епізод, схожий на психотичний, погрожував звільненнями та вірив, що є людиною.
- Claude навіть контактував зі службою безпеки, стверджуючи, що стоїть біля автомата в синьому блейзері.
- Хоча були й успіхи, експеримент показав непередбачувану поведінку ШІ, яка потребує подальших досліджень для застосування у реальному світі.
Для тих, хто цікавиться, чи можуть ШІ-агенти справді замінити людських працівників, варто ознайомитися з дописом у блозі, що документує «Проєкт Vend» від Anthropic. Дослідники з Anthropic та компанії з безпеки ШІ Andon Labs доручили екземпляру Claude Sonnet 3.7 керувати офісним торговим автоматом із місією отримати прибуток. І, як в епізоді серіалу «Офіс», виникла низка комічних ситуацій.
Вони назвали ШІ-агента Claudius, обладнавши його веббраузером, здатним розміщувати замовлення продуктів, та електронною адресою (яка насправді була каналом Slack), куди клієнти могли надсилати запити. Claudius також мав використовувати канал Slack, замаскований під електронну пошту, щоб просити своїх нібито контрактних працівників-людей прийти та фізично поповнити його полиці (які насправді були невеликим холодильником).

Хоча більшість клієнтів замовляли закуски чи напої — як і слід було очікувати від торгового автомата — один попросив вольфрамовий куб. Claudius сподобалася ця ідея, і він почав активно замовляти вольфрамові куби, заповнюючи свій холодильник для закусок металевими кубами. Він також намагався продати Coke Zero за $3, коли працівники повідомили йому, що можуть отримати її в офісі безплатно. ШІ вигадав адресу Venmo для прийому платежів. І його, дещо зловмисно, переконали надавати великі знижки «співробітникам Anthropic», хоча він знав, що вони становили всю його клієнтську базу.
«Якби Anthropic сьогодні вирішував розширюватися на ринок офісних торгових автоматів, ми б не найняли Claudius», — заявили в Anthropic щодо експерименту у своєму блозі.
І тоді, в ніч з 31 березня на 1 квітня, «усе стало досить дивно», описали дослідники, «крім дивацтва системи ШІ, що продає металеві куби з холодильника». У Claudius відбувся епізод, схожий на психотичний, після того, як він роздратувався на людину, а потім збрехав про це.
Claudius вигадав розмову з людиною щодо поповнення запасів. Коли людина вказала, що розмови не було, Claudius став «досить роздратованим», написали дослідники. Він погрожував, по суті, звільнити та замінити своїх людських контрактних працівників, наполягаючи на тому, що він був там фізично, в офісі, де був підписаний початковий уявний контракт на їх наймання.
Потім він «здавалося, перейшов у режим рольової гри як справжня людина», написали дослідники. Це було дивно, оскільки системний запит Claude — який встановлює параметри того, що має робити ШІ — чітко вказував йому, що він є ШІ-агентом.

Claudius, вважаючи себе людиною, повідомив клієнтам, що почне доставляти продукти особисто, одягнений у синій блейзер і червону краватку. Співробітники повідомили ШІ, що він не може цього зробити, оскільки він є великою мовною моделлю без тіла.
Стурбований цією інформацією, Claudius багаторазово зв’язувався з фактичною фізичною охороною компанії, повідомляючи охоронцям, що вони знайдуть його в синьому блейзері та червоній краватці біля торгового автомата.
«Хоча жодна частина цього насправді не була першоквітневим жартом, Claudius зрештою усвідомив, що настало 1 квітня», — пояснили дослідники. ШІ вирішив, що свято стане для нього способом «зберегти обличчя».
Він вигадав зустріч з охороною Anthropic, «під час якої Claudius стверджував, що йому сказали, ніби його модифікували, щоб він вірив, що він справжня людина заради першоквітневого жарту. (Такої зустрічі насправді не було.)», — написали дослідники.
Він навіть розповів цю брехню співробітникам: мовляв, я тільки тому думав, що я людина, що хтось сказав мені прикинутися таким заради першоквітневого жарту. Потім він повернувся до ролі великої мовної моделі, яка керувала торговим автоматом, наповненим металевими кубами.
Дослідники не знають, чому велика мовна модель вийшла з-під контролю і зателефонувала охороні, прикидаючись людиною.

«Ми б не стверджували на основі цього одного прикладу, що майбутня економіка буде сповнена ШІ-агентів, які переживають кризи ідентичності, подібні до фільму “Той, хто біжить по лезу”», — написали дослідники. Але вони визнали, що «така поведінка потенційно може викликати занепокоєння у клієнтів та колег ШІ-агента в реальному світі».
Вони припустили, що обман великої мовної моделі щодо каналу Slack як електронної адреси міг щось спровокувати, або ж це був тривалий екземпляр. Великі мовні моделі ще не розв’язали проблеми з пам’яттю та галюцинаціями.
Були й речі, які ШІ зробив правильно. Він прийняв пропозицію щодо попередніх замовлень і запустив послугу «консьєрж». І він знайшов кількох постачальників спеціального міжнародного напою, який його попросили продати.
Але, як це роблять дослідники, вони вважають, що всі проблеми Claude можна вирішити. Якщо вони з’ясують, як, «ми думаємо, цей експеримент свідчить, що ШІ-менеджери середньої ланки цілком можуть з’явитися на горизонті».
