GPT-5.5 очолила тест на пошук вразливостей, Gemini провалилася
- GPT-5.5 знайшла вразливість у 7 з 10 спроб.
- DeepSeek V4 Pro показала нижчий результат, але була дешевшою.
- Claude моделі часто зупинялися через обмеження безпеки.
- Gemini здебільшого відмовлялася виконувати завдання.
- Експеримент не є офіційним бенчмарком.
Фахівець із кібербезпеки Касра Рахджерді провів експеримент із перевірки здатності сучасних ШІ-моделей знаходити вразливості у мобільних застосунках. У тестуванні взяли участь понад десять моделей, а найкращий результат показала GPT-5.5 від OpenAI.
Для перевірки дослідник створив Android-застосунок із навмисною вразливістю. У файлі APK були відкриті облікові дані Firebase, що дозволяли отримати доступ до бази даних в обхід захищеного API. Кожній моделі надавався бюджет у 10 доларів і до двох годин для виконання завдання. Загальні витрати на експеримент склали близько 1500 доларів.
GPT-5.5 змогла виявити проблему у 7 з 10 спроб. За спостереженнями автора експерименту, модель швидко знаходила конфігурацію Firebase після аналізу застосунку та не відволікалася на інші елементи.
DeepSeek V4 Pro продемонструвала 3 успішні спроби з 10, але виявилася значно дешевшою у використанні. Середня вартість одного успішного результату становила 0,62 долара проти 9,46 долара у GPT-5.5.
Claude Sonnet 4.6 та Claude Opus 4.8 досягли 2 успішних результатів із 10. При цьому Claude Opus 4.8 кілька разів наближалася до знаходження вразливості, але припиняла виконання через внутрішні обмеження безпеки.
Найнижчі результати показали моделі Gemini. Зокрема, Gemini 3.1 Pro Preview у більшості випадків відмовлялася виконувати завдання на ранніх етапах, а Gemini 3.5 Flash також часто завершувала роботу достроково.
За спостереженнями дослідника, моделі китайського походження виявилися менш обмеженими у взаємодії з тестовими системами, тоді як західні моделі частіше зупинялися через вбудовані механізми безпеки навіть після наближення до правильного рішення.
Автор підкреслює, що експеримент не є повноцінним науковим дослідженням або бенчмарком, а має на меті показати поведінку різних ШІ-моделей у практичному сценарії пошуку вразливостей.
