Mettez-vous hors ligne avec l'application Player FM !
LCC 245 - Interview SRE avec Nicolas Helleringer et Maxime Brugidou - partie 2
Manage episode 331070349 series 43620
Nicolas et Maxime de Critéo partagent avec Emmanuel leur expérience de mise en place d’une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.
Enregistré le 12 novembre 2020
Téléchargement de l’épisode LesCastCodeurs-Episode–245.mp3
Interview Ta vie, ton oeuvreTwotter Nicolas Twitter Maxime Criteo Labs
Intros et premiers sujets en partie 1 Concepts intéressantsStandard Operating Procedure Gestion d’incident
Dashboard
PostmortemComment ça se passe ?
Relation avec l’équipe produitOn code sur le produit ? Feedback loop
Quid de systèmes fondamentalement en risque du black swan (échec systémique)
Une équipe SRE par boite ? Une équipe SRE par produit ?
Le monitoringQuoi mesurer ? Beaucoup, peu ?
Entraînements et cas réelsQue se passe-t-il quand cela chie dans la colle ? On s’entraine ? Vous faite le draining d’erreur budget
Drainer des clusters pour maintenance et impact sur l’utilisateur
ConclusionsLivres Google sur le Site Reliability Engineering
Nous contacterFaire un crowdcast ou une crowdquestion Contactez-nous via twitter https://twitter.com/lescastcodeurs sur le groupe Google https://groups.google.com/group/lescastcodeurs ou sur le site web https://lescastcodeurs.com/
320 episodes
Manage episode 331070349 series 43620
Nicolas et Maxime de Critéo partagent avec Emmanuel leur expérience de mise en place d’une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.
Enregistré le 12 novembre 2020
Téléchargement de l’épisode LesCastCodeurs-Episode–245.mp3
Interview Ta vie, ton oeuvreTwotter Nicolas Twitter Maxime Criteo Labs
Intros et premiers sujets en partie 1 Concepts intéressantsStandard Operating Procedure Gestion d’incident
Dashboard
PostmortemComment ça se passe ?
Relation avec l’équipe produitOn code sur le produit ? Feedback loop
Quid de systèmes fondamentalement en risque du black swan (échec systémique)
Une équipe SRE par boite ? Une équipe SRE par produit ?
Le monitoringQuoi mesurer ? Beaucoup, peu ?
Entraînements et cas réelsQue se passe-t-il quand cela chie dans la colle ? On s’entraine ? Vous faite le draining d’erreur budget
Drainer des clusters pour maintenance et impact sur l’utilisateur
ConclusionsLivres Google sur le Site Reliability Engineering
Nous contacterFaire un crowdcast ou une crowdquestion Contactez-nous via twitter https://twitter.com/lescastcodeurs sur le groupe Google https://groups.google.com/group/lescastcodeurs ou sur le site web https://lescastcodeurs.com/
320 episodes
Tous les épisodes
×Bienvenue sur Lecteur FM!
Lecteur FM recherche sur Internet des podcasts de haute qualité que vous pourrez apprécier dès maintenant. C'est la meilleure application de podcast et fonctionne sur Android, iPhone et le Web. Inscrivez-vous pour synchroniser les abonnements sur tous les appareils.