LCC 245 - Interview SRE avec Nicolas Helleringer et Maxime Brugidou - partie 2

56:07
 
Partager
 

Manage episode 281565762 series 25488
Par Emmanuel Bernard, Guillaume Laforge, Vincent Massol, and Antonio Goncalves, découvert par Player FM et notre communauté - Le copyright est détenu par l'éditeur, non par Player F, et l'audio est diffusé directement depuis ses serveurs. Appuyiez sur le bouton S'Abonner pour suivre les mises à jour sur Player FM, ou collez l'URL du flux dans d'autre applications de podcasts.

Nicolas et Maxime de Critéo partagent avec Emmanuel leur expérience de mise en place d’une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.

Enregistré le 12 novembre 2020

Téléchargement de l’épisode LesCastCodeurs-Episode–245.mp3

Interview Ta vie, ton oeuvre

Twotter Nicolas Twitter Maxime Criteo Labs

Intros et premiers sujets en partie 1

Episode 243 - partie 1

Concepts intéressants

Standard Operating Procedure Gestion d’incident

Dashboard

Postmortem

Comment ça se passe ?

Relation avec l’équipe produit

On code sur le produit ? Feedback loop

Quid de systèmes fondamentalement en risque du black swan (échec systémique)

Une équipe SRE par boite ? Une équipe SRE par produit ?

Le monitoring

Quoi mesurer ? Beaucoup, peu ?

Entraînements et cas réels

Que se passe-t-il quand cela chie dans la colle ? On s’entraine ? Vous faite le draining d’erreur budget

Drainer des clusters pour maintenance et impact sur l’utilisateur

Conclusions

Livres Google sur le Site Reliability Engineering

Nous contacter

Faire un crowdcast ou une crowdquestion Contactez-nous via twitter https://twitter.com/lescastcodeurs sur le groupe Google https://groups.google.com/group/lescastcodeurs ou sur le site web https://lescastcodeurs.com/

266 episodes