Третина нових сайтів у мережі згенерована ШІ — дослідження Стенфорду
- Дослідники Стенфорду, Імперського коледжу Лондона та Internet Archive з’ясували: 35% нових сайтів із середини 2025 року є ШІ-згенерованими або ШІ-асистованими.
- До запуску ChatGPT наприкінці 2022 року частка ШІ-сайтів дорівнювала нулю.
- З шести перевірених гіпотез підтвердилися лише дві: ШІ робить інтернет семантично менш різноманітним і більш позитивним за тоном.
- Гіпотеза про зростання дезінформації не підтвердилася — фактчекери не виявили збільшення перевірних неправд.
- Команда планує перетворити дослідження на постійний моніторинговий інструмент разом з Internet Archive.
Дослідники зі Стенфорду, Імперського коледжу Лондона та Internet Archive з’ясували, що приблизно 35% нових вебсайтів, опублікованих із середини 2025 року, є ШІ-згенерованими або ШІ-асистованими. До запуску ChatGPT наприкінці 2022 року цей показник дорівнював нулю. Результати опубліковано в статті «The Impact of AI-Generated Text on the Internet», повідомляє 404 Media.
Для дослідження команда отримала зразки вебсайтів за 33 місяці — з серпня 2022 по травень 2025 року — через Wayback Machine Internet Archive. Для виявлення ШІ-контенту використовувався детектор Pangram v3, який показав найвищу точність серед протестованих інструментів.
Дослідники перевірили шість поширених гіпотез щодо наслідків поширення ШІ-тексту: звуження різноманітності думок, поширення дезінформації через галюцинації моделей, надмірна позитивність тексту, відсутність посилань на джерела, низька змістовна щільність і уніфікація стилю. Підтвердилися лише дві: ШІ справді робить інтернет семантично менш різноманітним і більш позитивним за тоном. Гіпотеза про зростання неправдивих тверджень не підтвердилася — людські фактчекери не виявили збільшення кількості перевірних неправд у ШІ-контенті.
Один із авторів, дослідник Йонаш Долежал зі Стенфорду, назвав швидкість «захоплення» інтернету штучним інтелектом приголомшливою: за три роки значна частина мережі, яку люди формували десятиліттями, набула ознак ШІ-генерованого контенту. Команда планує перетворити дослідження на постійний моніторинговий інструмент разом з Internet Archive, а також деталізувати аналіз за категоріями сайтів і мовами.
