Rappel des faits

Le vendredi 18 juillet 2024, des centaines de millions de postes sous Windows ont été victimes d'un problème majeur de démarrage. La cause de ce chaos ? Un dysfonctionnement critique du logiciel de sécurité de la société CrowdStrike. Ce logiciel, principalement utilisé par les entreprises, a provoqué des BSOD (Blue Screen of Death) en boucle, forçant les systèmes à lancer l'outil de réparation de Windows et nécessitant une intervention manuelle pour la remise en état.

Écrans bleus BSOD provoqués par CrowdStrike le 18 juillet 2024
Ampleur de la panne mondiale CrowdStrike

Que fait la DSI ? 🤔

Aujourd'hui, de nombreuses entreprises n'ont plus de DSI (Direction des Systèmes d'Information) en interne, préférant externaliser cette fonction à des sociétés spécialisées en infogérance. Cette tendance a considérablement ralenti les interventions nécessaires pour résoudre les problèmes, causant des interruptions de service plus ou moins longues dans des secteurs critiques comme les hôpitaux, les aéroports et les banques.

Contrairement aux incidents habituels où Microsoft est souvent tenu responsable, cette fois-ci, la responsabilité revient entièrement à CrowdStrike.

Témoignage et résolution du problème 🛠️

Travaillant moi-même dans une DSI, j'ai été témoin de l'ampleur du problème dès mon arrivée au bureau. Plusieurs postes étaient inutilisables. En cinq minutes, nous avions identifié que le fichier CSagent.sys du client CrowdStrike était à l'origine des BSOD.

En utilisant un live boot CD pour explorer les fichiers récents dans le répertoire :

code
C:/Windows/System32/drivers/CrowdStrike

Nous avons trouvé un fichier nommé C-00000291.sys. Le simple fait de renommer ce fichier a permis de rétablir le démarrage normal des machines. En moins de 30 minutes, nous avions compris la cause du bug et trouvé une solution.

Dans notre DSI, nous gérons près de 1 200 machines ainsi que des serveurs virtualisés, également protégés par CrowdStrike. Le vendredi à midi, environ 95 % des machines étaient de nouveau opérationnelles grâce à nos interventions manuelles sur site.

Impact mondial et leçons à tirer 🌍

À l'échelle mondiale, la résolution a pris beaucoup plus de temps. Pourquoi ? Parce que l'externalisation de la gestion informatique — souvent à des sociétés opérant à distance et parfois situées dans des pays différents — complique et ralentit considérablement les interventions physiques nécessaires.

Quelques impacts notables de cet incident :

  • Transports : De nombreux vols annulés, des aéroports paralysés, un trafic aérien mondial sévèrement perturbé.
  • Télécommunications : Des chaînes comme ABC en Australie ont subi des interruptions de service.
  • Bourses et banques : La Bourse de Londres et plusieurs grandes banques ont été affectées, entraînant des perturbations dans les transactions financières.
  • Jeux Olympiques de Paris 2024 : À une semaine seulement de la cérémonie d'ouverture, le comité d'organisation a signalé des perturbations importantes dans ses activités informatiques.

Conclusion

Cet incident souligne l'importance cruciale d'une gestion proactive et locale des systèmes informatiques, ainsi que les risques associés à une trop grande dépendance envers des solutions externalisées pour des fonctions critiques de sécurité. 🎯

#CrowdStrike
Commentaires 5
Laisser un commentaire
W
Will 23/07/2024

Premier article que je lis sur ce joli site web, hâte de lire les suivants.

B
Bilou 23/07/2024

En réponse à Will : Merci à toi, bonne lecture 😉

S
SANCTiFER 23/07/2024

Le point positif de cet incident, c'est qu'il me rassure dans l'intérêt de nos métiers. Même dans le monde de l'IA et du tout au numérique, il y aura toujours besoin d'humain pour réparer les machines. ( ͡° ͜ʖ ͡°)

B
Bilou 23/07/2024

En réponse à SANCTiFER : OooWeee!

A
Alfy 17/10/2024

Le bordel ce jour la 😂