“8401 Makinayı Nasıl Kapattım?” yazısında, felaketi anlattım. Gelen yorumlarda, “sonra ne oldu” sorusu ağırlıklı oldu. Doğru, onun da anlatılması önemli.
Google’ın kültüründe, “suçlama”nın çok yeri yoktu. Elbette kişisel olarak suçlamaya meraklı birileri hep vardır ama, kurumun uygulamaları böyle değildi.
Olanlar olduktan sonra, insanlara söylemekten çekinmedim mesela. Haber verdim ve bir yandan da yaptığımı temizleme işine girdim.
Ertesi gün (sanıyorum, aynı gün kesin değil) John yanıma geldi ve “Post Mortem” yazmam gerektiğini söyledi. Bu adı ilk defa orada duydum. İsmini aslında uçak kazalarından sonra hazırlanan raporlardan alıyormuş; ismi de “ölüm sonrası” demek.
Bir Post Mortem raporunun içinde, önce hasarın ne olduğunu yazarsınız. Yani, neler etkilendi, kimler etkilendi, ne kadar süre ile etkilendi, yaklaşık maliyeti ne oldu gibi. Sonra, bir zaman çizelgesi gelir. Bu olayın öncesinde sebep olan durumlardan başlar, genellikle de durumun çözüldüğü zamana kadar gider. Arkasından, kök sebep analizi gelir. En sonda da, böyle bir kaza veya kesintisinin bir daha yaşanmaması için gereken tedbirler, sistem veya kural değişiklikleri yazılır.
Bana da bunu yaptırdılar. En zor kısmı zaman çizelgesi ama, neyse ki iletişimin çoğu elektronik; dönüp bakmak mümkün.
Geriye dönüp bakınca, Post Mortem’in kişisel olarak bana yazdırılması da suçlama kategorisinde değerlendirilecek bir şey. Yani, nihai olarak hatayı yapıp tuşa basan benim ama, sistemden ve ekipten ayrı bir marifetim yok ki benim. Post Mortem’i ekipçe hazırlamalıydık aslında.
Kendim de kendimi suçlamamakta pek başarılı olamamışım ben de. Yani, kök sebep kısmına, “kişisel hata” yazdım. Bir daha olmaması için ne yapılacak kısmına da doğru dürüst bir şey yazamadım, “bir daha yapamayacağım” gibi bir cümle zırvaladım.
Öte yandan, olay çözüldükten sonra ne bir daha lafı edildi, ne de herhangi bir değerlendirmede, geri bildirimde boy gösterdi. Yani, yukarıda dediğim gibi, kurum olarak suçlama bir yöntem değil.
Google’da derler ki, “SRE owns production”, yani SRE’ler üretim sistemlerinin sahibidir. Tam olarak böyle davrandıkları için de, sonrasında ben de kendimi sistemin sahibi olarak görebildim ve hata yapmaktan korkmadan çalışabildim. Elbette, hatadan sağlıklı bir çekinme ve dikkat olması gereken bir şeydir. Ama benim yapacağım hata için, bir başkası beni ceza ile tehdit ediyorsa, olay sağlıklı olmaktan çıkıyor. Yani, sistemi korumak yerine, kendimi koruma refleksine dönüyorum.
Umarım yeterli cevap olmuştur “sonra ne oldu” diye merak edenlere.
Ayrıca buradan, bir yandan insanlar işlerini sahiplenmiyor diye şikayet edip, diğer yandan onları ceza ile tehdit edenlere selam olsun…
Bir cevap yazın