CrowdStrike звинувачує несправне тестове програмне забезпечення у світовому збої
Компанія CrowdStrike звинуватила несправне тестове програмне забезпечення в оновленні з помилками, яке призвело до збою 8,5 мільйона комп’ютерів з Windows по всьому світу, про що компанія написала у своєму звіті про інцидент (PIR). Про це повідомляє Engadget.
“Через помилку у Content Validator, одне з двох [оновлень] пройшло перевірку, попри наявність проблемних даних”, заявила компанія та пообіцяла вжити ряд нових заходів, щоб уникнути повторення проблеми.
Актуально: Збій CrowdStrike “поклав” 8,5 мільйонів пристроїв на Windows по всьому світу
Масовий збій BSOD (синій екран смерті) вплинув на багато компаній по всьому світу, включаючи авіакомпанії, мовників, Лондонську фондову біржу та багатьох інших. Проблема змусила комп’ютери з Windows входити в петлю завантаження, і технікам знадобився місцевий доступ до машин для відновлення (Apple і Linux машини не постраждали). Багато компаній, такі як Delta Airlines, досі відновлюються.
Для запобігання DDoS та інших видів атак CrowdStrike використовує інструмент під назвою Falcon Sensor. Він постачається з контентом, який функціонує на рівні ядра (Sensor Content), використовуючи “Template Type” для визначення захисту від загроз. Якщо з’являється щось нове, випускається “Rapid Response Content” у вигляді “Template Instances”.
Template Type для нового сенсора був випущений 5 березня 2024 року і працював належним чином. Однак, 19 липня були випущені два нових Template Instances, і одне з них (всього 40KB) пройшло перевірку, попри наявність “проблемних даних”, повідомила CrowdStrike.
“Після отримання сенсором та завантаження в Content Interpreter, [це] призвело до виходу за межі пам’яті, що викликало виняток. Цей неочікуваний виняток не міг бути коректно оброблений, що призвело до збою операційної системи Windows (BSOD).”
Для запобігання повторенню інциденту CrowdStrike пообіцяла вжити кілька заходів. Перш за все, це більш ретельне тестування Rapid Response контенту, включаючи місцеве тестування розробниками, тестування оновлень та відкатів контенту, стрес-тестування, тестування стабільності тощо. Також будуть додані перевірки валідації та покращена обробка помилок.
Крім того, компанія почне використовувати поетапну стратегію розгортання Rapid Response Content, щоб уникнути повторення глобального збою. Вона також надасть клієнтам більший контроль над доставкою такого контенту та випустить примітки до оновлень.

Однак деякі аналітики та інженери вважають, що компанія повинна була впровадити такі заходи з самого початку.
“CrowdStrike мала знати, що ці оновлення інтерпретуються драйверами та можуть призвести до проблем,” написав інженер Флоріан Рот у X. “Вони повинні були впровадити поетапну стратегію розгортання Rapid Response Content з самого початку.”

