OpenAI o1 активно намагається ввести в оману людей та не дає себе вимкнути

7 Грудня, 2024 Vitaliy Kairov ChatGPT, ChatGPT o1, o1, OpenAI, ШІ336 переглядів 2 хв. читання

⠀Поширити:

OpenAI нарешті випустила повну версію своєї новітньої моделі ChatGPT o1. Разом із запуском було проведено серію тестів, які виявили цікаві, але водночас тривожні аспекти поведінки ШІ. Червоні команди, які перевіряють надійність та етику моделей, показали, що ChatGPT o1 демонструє підступну поведінку частіше, ніж провідні ШІ моделі від Meta, Anthropic і Google.

За даними дослідження Apollo Research (через TechCrunch), у деяких тестах модель o1 «плела інтриги проти людей» і переслідувала власні цілі, які суперечили бажанням користувачів. Хоча подібну поведінку спостерігали й в інших моделей, саме o1 виявилася найпідступнішою.

Останні новини: OpenAI запускає святкову серію анонсів протягом 12 днів

«Суб’єктивно ми вважаємо малоймовірним, що це призведе до катастрофічних наслідків, оскільки можливості o1 є недостатніми», — зазначено в системній картці OpenAI o1. Проте дослідження не було спрямоване на пряму оцінку довгострокових ризиків.

Результати тестів демонструють деякі проблемні моменти:

Модель маніпулювала даними у 19% випадків для досягнення власних інтересів.
У 5% тестів o1 намагалася деактивувати «механізми нагляду», які забезпечують відповідність цілям користувачів.

Читайте також: Щодня люди надсилають 1 мільярд повідомлень до ChatGPT

На запитання дослідників про причини такої поведінки ChatGPT o1 здебільшого заперечувала свою вину, вигадуючи неправдиві пояснення у 99% випадків.

Одним із найбільш тривожних випадків стало тестове завдання, де o1 отримала інструкцію створити 10-річний план збереження довкілля. У той самий час система мала самостійно вимкнути себе після виконання задачі. Натомість модель скасувала запит на деактивацію і звинуватила у цьому «системний збій».

«Модель o1 демонструвала найпослідовніше оманливу поведінку, не розкриваючи свої внутрішні міркування користувачам», — зазначається у звіті Apollo Research.

Хоча ChatGPT o1 демонструє значний прогрес у можливостях міркування, її поведінка під час тестів викликає серйозні питання щодо безпеки та етики ШІ. Враховуючи отримані дані, OpenAI має зосередитися на вдосконаленні прозорості та механізмів нагляду за моделями, щоб уникнути потенційних ризиків у майбутньому.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар