Blogue

Panne Informatique de Microsoft 2024 : Leçons de continuité des activités avec Philippe Tassé-Gagné, vice-président des services-conseils

Découvrez notre logiciel de continuité

Le 19 juillet 2024, une mise à jour défectueuse de CrowdStrike a déclenché une panne mondiale des services Microsoft, qui a impacté des millions d'utilisateurs et perturbé de nombreux secteurs d'activité.

Face à cette situation sans précédent, la gestion de la continuité des activités est devenue un sujet central pour les entreprises de toutes tailles.

Afin de mieux comprendre les défis et les solutions, nous avons rencontré Philippe Tassé-Gagné, vice-président des services-conseils chez Premier Continuum, pour une entrevue forte intéressante.

M.Tassé-Gagné est un expert reconnu en continuité des affaires et résilience organisationnelle, avec plus de 25 ans d’expérience. Il a d’ailleurs remporté le prestigieux prix de Consultant en continuité et résilience 2024, aux BCI Americas Awards 2024.

Bonne lecture!

1. Philippe, pouvez-vous nous expliquer brièvement ce qui s'est passé lors de la panne de Microsoft en juillet 2024 ?

Bien sûr. Le 19 juillet 2024, une mise à jour du logiciel de cybersécurité CrowdStrike a provoqué des erreurs d'écran bleu (BSOD) sur de nombreux appareils Windows, soit plus de 8,5 millions d’appareils.

Why the Blue Screen of Death Still Matters in a World of IT Chaos
Exemple d'erreur « BSOD »

Cette mise à jour a entraîné des interruptions significatives des services Microsoft 365, affectant des applications critiques comme Outlook, Teams et OneDrive. La panne a eu un impact mondial, perturbant des secteurs clés tels que le transport, les services sociaux et de santé, les services financiers et bien d'autres.

Au niveau personnel, l’une des choses qui m’a le plus étonné est que même la radio ne fonctionnait pas ce matin-là. Quand tout va mal, même la source que nous pensons la plus fiable ne répondait pas présente!

2. Avez-vous eu à gérer ou supporter vos clients dans la gestion d’un incident pareil?

Outre la pandémie de la Covid-19, je n’ai pas eu à gérer, au cours de mes 28 ans de carrière, d’événements d’une aussi grande ampleur.

Ça me fait d’ailleurs penser au dicton : « On est toujours prêt pour le dernier incident qu’on a vécu ».

Par exemple, lorsque la Covid est survenue, les organisations ont eu recours à leurs plans de continuité et de gestion de crise déjà en place, qui étaient eux-mêmes planifiés en fonction du dernier gros évènement du même style qui était, dans ce cas, le virus de la grippe H1N1 de 2009. Ainsi, les protocoles étaient plus ou moins adaptés pour la COVID, mais ne l’aurait pas forcément été pour d’autres types de perturbations liées au personnel.

La leçon à retenir ici est essentiellement : combien d’organisations prennent vraiment le temps de débriefer, d’amasser les données et les informations ainsi que de mettre à jour leurs plans et procédures en fonction de scénarios similaires à la suite d’une crise ? Pas beaucoup d’entreprises… alors que c’est d’une importance capitale.

3. Selon vous, pourquoi les impacts de l’incident de Crowdstrike ont été si nombreux?

Effectivement, beaucoup d’organisations ont des dépendances accrues envers Microsoft. Et même si les risques d’interruption de ses services et outils sont faibles, il faut considérer que les impacts peuvent être catastrophiques.

Nous devenons de plus en plus dépendants aux multinationales et surtout, celles qui dominent le marché comme Microsoft. À mon avis, ce genre de panne va ébranler de nombreuses organisations, puis pousser celles qui auront été les plus affectées à se demander si ça vaut la peine de mettre en place des solutions alternatives, mais encore, à quel prix ? Les alternatives ne sont pas nombreuses…

Prenons l'exemple de la compagnie aérienne Delta, qui menace de poursuivre CrowdStrike pour les pertes subies. Des centaines de leurs vols ont dû être reportés, et bien d'autres ont été annulés. *

On comprend leur perte, mais cela soulève une question contre-intuitive : vers quel autre fournisseur peuvent-ils se tourner ?

Delta continuera probablement de faire affaire avec Microsoft, un acteur incontournable pour leurs opérations. Microsoft, de son côté, continuera sans doute de collaborer avec CrowdStrike, étant donné la robustesse et la réputation de leurs solutions de cybersécurité. Ainsi, même en poursuivant CrowdStrike, Delta restera indirectement liée à eux à travers Microsoft. Cela montre la complexité et l'interconnexion des écosystèmes technologiques actuels, où les choix sont limités et les dépendances mutuelles inévitables.

*Source : CNBC. « Delta hires David Boies to seek damages from CrowdStrike, Microsoft after outage », publié le 29 juillet 2024, https://www.cnbc.com/2024/07/29/delta-hires-david-boies-to-seek-damages-from-crowdstrike-microsoft-.html

4. Qu’est-ce que les organisations devraient faire suite à l'incident Crowdstrike ou à la panne des services de Microsoft Azure?

Un élément important est de prendre conscience de la confiance aveugle que l’on porte envers ces multinationales. Du côté client, la mise à jour CrowdStrike a été téléchargée automatiquement et n’a pas nécessairement été testée par les organisations avant d’être installée.

Cet évènement devrait définitivement encourager les entreprises à être plus efficaces et vigilantes concernant le processus de mise à jour de leurs systèmes importants. Certaines compagnies ont testé la mise à jour de CrowdStrike avant de l’installer, ce qui leur a permis d’éviter les impacts sur leurs opérations. En ce sens, les grandes organisations devraient les évaluer ou au moins les tester, dans la mesure du possible, avant de les installer.

Évidemment, les petites et moyennes organisations ne peuvent pas réviser toutes les mises à jour, mais il est toujours bon de revoir ses systèmes et ses dépendances pour au moins réévaluer les risques.

Et bien que les risques étaient toutefois assez faibles, il faut retenir que nos systèmes sont de plus en plus interdépendants.

5. Comment développer sa résilience organisationnelle peut-elle outiller les organisations à l’égard de ce genre de perturbation ?

La résilience organisationnelle est la capacité d'une organisation à absorber des chocs et à s’adapter à un environnement changeant. Développer cette capacité peut notamment aider les organisations à renforcer leur cyberrésilience et à mieux se préparer aux pannes technologiques.

  • Notamment, l’incident Crowstrike a mis en évidence la vulnérabilité accrue des organisations face aux cyberattaques. Pendant la crise, une vigie disciplinée était de mise, car une faille dans la sécurité offrait une opportunité en or aux cybercriminels. Travailler à accroître sa résilience organisationnelle permet aux organisations de rester vigilantes et prêtes à réagir rapidement aux perturbations.
  • De plus, lorsqu’on travaille sa résilience organisationnelle, on vient à mettre en place des stratégies de relève, ou de contournement, pour nos activités prioritaires ou nos services d’affaires important. Les organisations peuvent alors prendre le temps de recaractériser leurs infrastructures prioritaires.

Il faut entre autres se poser la question : « Est-ce que j’ai finalement des points de défaillance uniques que je n’avais pas perçus ou que je ne croyais pas pertinents ? ».

Il n’y a peut-être pas toujours des solutions, mais en reconnaissant que ce type de panne informatique est plus probable que prévu, les équipes de continuité et de résilience peuvent développer des mesures de contournement sécurisées pour gérer les situations similaires à l'avenir.

6. Comment pourrait-on améliorer notre préparation face à une autre panne informatique de cette envergure ?

Je suis d’avis que la préparation passe par la sensibilisation, la formation et les exercices de continuité et de résilience. Autant nous devons nous assurer que tous les membres de l'organisation comprennent leur rôle en cas de crise, qu’il est crucial de veiller au développement des compétences de la cellule de gestion de crise via des formations continues et des exercices réguliers.

Un exemple que j’aime utiliser est le suivant. Que ce soit dans les plans de relève informatique ou dans un exercice cyber, il est important de préciser les types de cyberincidents concernés. Est-ce une cyberattaque, ou est-ce une perte d’accès au système?

Ces deux pannes pourraient avoir impacté le moyen de communication principal d’une organisation, mais on ne peut définitivement pas gérer la crise de la même façon. Il faut absolument concevoir des mesures et stratégies parallèles pour une réponse adaptée, et pratiquer la cellule de gestion de crise à les mettre en place efficacement.

De nos jours, se préparer à une cyberattaque, c’est une bonne pratique. C’est de loin le risque ou l’aléa le plus probable.

7. Pensez-vous que cette panne informatique Microsoft deviendra une étude de cas pour le futur ?

La panne Microsoft causée par CrowdStrike est un incident informatique, et la tendance des TI à s’adapter est généralement meilleure que l’ensemble des autres secteurs. Ceci dit, il ne serait pas surprenant que les apprentissages et les leçons tirées de cet événement deviennent beaucoup plus rapidement de bonnes pratiques.

J’ose espérer qu’effectivement, suite à cet incident, les organisations prendront plus le temps de faire des vérifications avant d’installer des mises à jour. Par contre, je le répète, ce n’est pas une mince tâche. Il faut de bons systèmes en places et les bons outils, et ce n’est définitivement pas toutes les entreprises peuvent se permettre. Toutefois, beaucoup d’organisations ont de vieux systèmes et sont par conséquent plus fragiles à ce genre d’évènement. À mon avis, celles-ci devraient plus attention, tout comme les organisations qui assurent des services essentiels, comme les soins de santé et les services de transport.

À court terme, je conseille à toutes les organisations de documenter les impacts de cet incident et la manière dont il a été géré. En analysant ces informations, il sera plus évident d’identifier les opportunités d'amélioration pour les futures crises.

En d’autres mots, il est essentiel d'apprendre de ses erreurs pour renforcer la résilience et améliorer les plans de continuité des activités, afin d'être mieux préparé pour faire face aux futures perturbations.

Pour aller plus loin…

Voilà qui conclut notre entrevue avec Philippe Tassé-Gagné, vice-président des services-conseils et du développement du talent chez Premier Continuum.

Nous remercions chaleureusement M. Tassé-Gagné pour le partage de ses points de vue et de son expertise avec nous sur le sujet.

Pour en savoir plus sur cette panne informatique, nous vous invitons à consulter notre article : Incident du 19 juillet 2024 : quand une mise à jour à des impacts mondiaux

Pour en savoir plus sur la gestion de la continuité des activités et la résilience organisationnelle, consultez notre équipe d’experts dès maintenant.