Le Passe France-Allemagne, ou comment échouer le lancement d'un produit
Vous pensez que la faute vient de la SNCF ou de DB ?
Écrit par Denise, le 12/06/2023, écrit en 🇫🇷Voici la chronologie du lancement du Passe France-Allemagne, de mon point de vue :
C'est le 12 juin 2023. Je me reveille à 9h20 et je regarde mon téléphone.
ami : salut, y'a des tickets gratuits à 10h vers l'allemagne pour les jeunes français. ça pourrait aider avec le cccamp @denise https://passefranceallemagne.fr
9:50
Je suis sur mon ordinateur et je rafraîchis la page. J'ai trouvé un endpoint "caché" que je peux refresh plutôt que la page principale - https://enregistrer.passefranceallemagne.fr.
10:00
Leur application Vercel crash en boucle avec une erreur HTTP 500. Ça doit être à cause de toutes les connexions qui prennent place en simultané.
10:15
Rien du tout pour l'instant, mais la page est plus stable : peut-être qu'ils ont agrandi les capacités de la machine qui tourne le projet.
ami : @denise je crois que leur instance wordpress est entrain d'échouer sous le poids des connexions : [lien interne censuré pour des raisons légales]
Je trouve leur dashboard en backoffice. D'après leur politique de confidencialité, c'est une plateforme qui s'appelle Dune, developpée par Caracal sprl.
Et la page est mise à jour pour indiquer une ouverture de la plateforme à 10h30.
10:30
À partir de ce moment, je suis bannie par IP de la page principale, mais pas de https://enregistrer.passefranceallemagne.fr.
Ils commencent à passer graduellement vers une instance S3 Amazon.
10:42
La page est mise à jour pour indiquer "11h00".
10:45
Les enregistrements sont ouverts. Je réussis à arriver au dernier écran qui demande de mettre en place un mot de passe pour la demande, et ça échoue sur un "500 server error".
À partir de ce moment :
- Des erreurs CORS parce qu'ils ont mal configuré leur Supabase ;
- La page échoue de manière intermittante parce que leur "Edge Function" sur Vercel crash ;
Et puis, sur une erreur 522, leur instance Supabase crash.
11:00
Toujours entrain de crash !
11:30
Le site d'enregistrement entre dans un mode de maintenance spécial. Leur dashboard en back office crash sur un 504 Gateway Timeout.
11:50
La page d'enregistrement est mise à jour pour dire "Compte tenu de la quantité haute de connexions, les serveurs sont surchargés. Essayez plus tard."
12:00
La page d'enregistrement est mise à jour pour dire "Nous avons reçu une grande quantité de demandes pour le passe et nous sommes entrain de les traiter."
12:30
Leur dashboard en back-office revient en ligne.
14:36
Les enregistrements reouvrent. Je me refais un compte.
14:44
Les enregistrements referment.
19:31
Les premières confirmations du passe sont envoyées.
22:29
Je reçois une confirmation d'enregistrement pour le passe sur le deuxième compte que j'ai crée.
June 13th
09:46
Je reçois le passe.
09:59
ami : je viens de recevoir un mail qui me dit de finir le processus d'enregistrement, et que j'ai jusqu'à 18h pour le faire. le formulaire envoit une erreur 500 parrce que mon compte existe déjà. j'essaie de reset mon mot de passe et ça m'envoit sur une page avec les mots "this is ta test page"
Pensées
Un cas d'étude magnifique pour "comment être incompétent sur un changement d'échelle". Ils savaient que c'était quelque chose qui aurait beaucoup d'intêret et ils ont échoué quand-même.
Quelques idées :
- Des queues virtuelles. Si l'Île-de-France Mobilités et le CCC peuvent les utiliser, pourquoi pas vous aussi, DB et SNCF ? Ça aiderait avec la surcharge.
- Pas de JavaScript sur le côté du serveur. Ça demande des technologies plus matures pour le web.
- Pas payer une agence de design web pour produire des dashboards internes qui sont basés sur une instance Wordpress qui ne peut pas être mise à l'échelle.
Attention - changement de license pour cet article!
Cet article est CC BY-NC-SA 4.0.