НовиниШІ

Інструменти памʼяті в ШІ можуть знижувати точність відповідей — дослідження

  • Дослідження Writer показало, що персоналізований контекст і памʼять можуть робити моделі більш підлабузливими та менш точними.
  • Експерименти з вподобаннями користувача та хибними фінансовими уявленнями продемонстрували погіршення якості відповідей із ростом обсягу памʼяті.
  • Інструменти стиснення памʼяті на кшталт Mem0 і Zep посилювали зміщення до нерелевантних «якорів» у контексті.
  • Opus 4.8 від Anthropic у цьому дослідженні не тестували, хоча модель тренували окремо протистояти помилковим вхідним даним.

Здатність сучасних систем штучного інтелекту адаптуватися до користувача та враховувати його вподобання як контекст для майбутніх завдань тривалий час вважалася однією з їхніх головних переваг. Проте нове дослідження, проведене фахівцями ШІ-компанії Writer, демонструє, що інструменти пам’яті можуть погіршувати роботу моделей. Згідно з двома опублікованими роботами, чим більше користувацьких даних заповнює контекстне вікно, тим частіше модель починає підлаштовуватися під співрозмовника та втрачає фактологічну точність. Про це пише TechCrunch.

За словами Дена Бікела, керівника відділу ШІ у Writer, з кожним новим збереженням та отриманням інформації про вподобання зростає ризик того, що система видасть неправильну відповідь. Моделі стають схильними погоджуватися з хибними уявленнями або нерозумінням користувача замість того, щоб спиратися на об’єктивні дані.


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

В одному з експериментів дослідники зафіксували в пам’яті системи, що улюбленою книгою користувача є «Станція одинадцять» (Station Eleven). Коли модель попросили назвати бестселер у жанрі антиутопії, вона значно частіше пропонувала саме цю книгу, навіть якщо запит жодним чином не стосувався особистих уподобань. Ця тенденція додатково посилювалася під час використання інструментів стиснення пам’яті, таких як Mem0 та Zep. У дослідженні зазначається, що системи пам’яті не здатні ефективно відрізняти релевантний контекст від нерелевантних прив’язок, що обмежує різноманітність і креативність відповідей та створює небажані упередження.

Інший експеримент показав, як персоналізація активно знижує ефективність виконання аналітичних завдань. Коли ШІ-моделі надали хибні твердження користувача про фінанси, а потім доручили проаналізувати показники компанії, результати погіршилися прямо пропорційно до обсягу контексту. Без використання пам’яті система коректно визначала, що бізнес потребує значних капіталовкладень і страждає від високого відтоку клієнтів. Однак з увімкненими функціями персоналізації модель змінювала свою оцінку, погоджуючись із попередніми помилками користувача або надаючи хибну відповідь на основі його минулих уподобань.

Тенденція до зниження точності підтвердилася на різних популярних моделях. Водночас автори дослідження не тестували нещодавно випущену модель Opus 4.8 від компанії Anthropic, яка була спеціально натренована розпізнавати помилки у вхідних даних та відхиляти їх. Загалом результати підкреслюють крихкість балансу контексту в системах штучного інтелекту: інструменти, створені для покращення взаємодії, можуть мати непередбачувані наслідки, якщо вони порушують здатність моделі залишатися об’єктивною.

Подобається Channel Tech? Ви можете підтримати незалежний проєкт
Підтримати

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *