Gözlemle, Ölç, Yönet – Sekom’un Uçtan Uca Monitoring Mühendisliği
27 Kas 2025
Hazırlayan: Mehmet Kutay Eroğlu – Bulut Teknolojileri Mühendisi – Sekom
Hazırlayan: Burak Ceviz – DevSecOps ve Bulut Operasyonları Mühendisi – Sekom
Modern dijital altyapılardan beklentimiz, yalnızca “çalışıyor” demekle sınırlı değil. Artık sistemlerin nasıl çalıştığını, nerede zorlandığını ve nasıl geliştirilebileceğini bilmek zorundayız. Sekom olarak, bu gelişmiş mühendislik pratiğini açık kaynak ekosisteminin gücü ve otomatik eylem döngüsü üzerine inşa ediyoruz.
Temel amacımız; metrik, log, event ve trace verilerini birleştirerek anlamlı öngörüler üretmek, bunu Ansible Automation Platform (AAP) ile aksiyona dönüştürmek ve bu sayede işletim maliyetlerini düşürürken kullanıcı deneyimini sürekli iyileştirmektir.

1. Neden Açık Kaynak Gücü ile Gözlemlenebilirlik (Observability)?
Observability mimarimizde açık kaynağı tercih etmemizin temelinde endüstriyel standartlaşma, mutlak şeffaflık ve operasyonel esneklik yatmaktadır.
- Standartlaşma ve Tamamlayıcılık : OpenTelemetry/OTLP ve OpenMetrics/PromQL gibi küresel standartları benimsemek, bizi tek bir ekosisteme kilitlemez. Tam tersine, bu standartlar sayesinde verilerimizi kurumsal APM (Application Performance Monitoring) çözümlerine veya kapalı kaynaklı güvenlik platformlarına kolayca iletebiliriz. Açık kaynak araçlar, mevcut Enterprise yatırımlarınızla tamamlayıcı bir veri katmanı oluşturma esnekliği sunar.
- Şeffaflık ve Güvenlik : Kaynak kodun açık olması, kritik sistemlerimizde güvenlik denetimlerini, SBOM (Yazılım Malzeme Listesi) takibini ve bağımsız denetlenebilirliği mümkün kılar.
- Esneklik : İhtiyaca özel exporter geliştirme, Kubernetes CRD’leri ile seçici veri toplama ve eBPF sinyalleri ile mimariyi genişletme yeteneğimiz sayesinde hiçbir üreticinin kapsamadığı niş alanlarda bile kendi çözümlerimizi geliştirebiliyoruz.
- Veri Egemenliği : Mimir ve Loki gibi bileşenlerle yatay ölçek ve obje depolama (Object Store) üstünde uzun süreli veri saklama yeteneği sunarak veri yerelliği ve regülasyon uyumunu sağlıyoruz.

2. Sekom’un Uçtan Uca Mimari Yaklaşımı
Sistemlerinizi alarm üreten kutular olmaktan çıkarıp anlaşılır, ölçülebilir ve sürdürülebilir bir platforma dönüştürüyoruz.
2.1. OpenTelemetry (OTel): Standart Veri Standardı
OTel, tüm izleme verilerinin (Metrik, Log, İz) toplanması ve iletilmesi için evrensel bir dildir.
- Kolektörler : OTel Collector’lar, verileri toplayıp otomatik olarak cluster, namespace, service gibi bağlamsal etiketlerle zenginleştirir.
- Özel Dönüşümler : Yapay zeka iş yüklerinde, DCGM (GPU donanım) metriklerini metricstransform ile yeniden adlandırarak (Örn: DCGM_FI_DEV_GPU_UTIL → gpu_util_percent) standart uygulama şemasıyla birleştiriyoruz.

2.2. Prometheus & Mimir: Ölçeklenebilir Metrik Yönetimi
Prometheus izlemenin bel kemiğidir. Mimir ise metrikleri yatay ölçekte ve multi-tenant yapıda uzun süreli saklamak için kullanılır.
- Uzmanlık Odak Alanı : Klasik metriklerin ötesinde, AI/ML ve İş Uygulamaları için inference_queue_depth, generated_tokens_total gibi iş çıktısı odaklı kritik metrikleri topluyoruz.
- PromQL Gücü : PromQL ile p95/p99 gecikme ve tokens/sec gibi kritik Hizmet Seviyesi Göstergelerini (SLI) doğrudan hesaplıyoruz.

2.3. Elasticsearch & Loki: Korelasyonlu Log Yönetimi
Loglar, metriklerin anlattığı “ne oldu” sorusunun “neden oldu” cevabıdır.
- Log Zenginleştirme : Logstash ile log verilerini ayrıştırıp, IP’ler ve user-agent bilgileriyle zenginleştiriyoruz.
- Veri Depolama : Elasticsearch (olaylar ve zenginleştirilmiş loglar) ve Loki (büyük ölçekli, indekslenmemiş log depolama) ile yönetilir.
- ILM : Veri türüne göre Yaşam Döngüsü Yönetimi (ILM) politikaları uygulayarak saklama maliyetlerini optimize ediyoruz.

2.4. Jaeger & Tempo: Mikroservis İzleme (Traces)
Mikroservis mimarilerinde bir isteğin geçtiği tüm servisleri uçtan uca görünür kılar.
- Kök Neden Tespiti : Trace analizi ile bir isteğin hangi serviste ne kadar zaman harcadığını anlık olarak tespit ederek, ilgili log ve metriklerle korelasyon kurarız. Bu, kök neden analizini saniyeler düzeyine indirir.

2.5. Grafana: Görselleştirme ve Aksiyon Merkezi
Grafana, tüm veri kaynaklarının tek bir arayüzde birleştiği, karar verme merkezidir.
- Korelasyonlu Dashboardlar : Prometheus, Loki, Elasticsearch gibi tüm kaynaklardan gelen veriler, tek bir Dashboard üzerinde, zaman penceresi eşleştirmesiyle sergilenir.
- Dashboard’dan Aksiyon : Dashboard üzerinden veya Alertmanager sinyaliyle tetiklenen AAP job şablonları ile Sinyal → Karar → Eylem döngüsü başlatılır.

3.Otomasyonla Kapanan Döngü (AAP & EDA)
Gözlemlenebilirlik platformumuzun gerçek değeri, toplanan veriyi otomatik eyleme dönüştürmesindedir.
- SLO Odaklılık : Uyarılarımızı, hata bütçesi tüketimi (burn-rate) gibi iş hedeflerine dayandırarak alarm gürültüsünü engelleriz. Her kritik alarm için hazırlanan runbook’lar, AAP üzerinde yürütülebilir otomasyon tarifleridir.
- Hızlı Tepki : Prometheus Alertmanager‘dan çıkan sinyaller, Event-Driven Ansible (EDA) ile alınarak ilgili AAP job’larını anında tetikler.
| Otomasyon Senaryosu | Tetikleyici Sinyal (Alert) | Otomatik Eylem (AAP Job) |
|---|---|---|
| Hizmet Geri Alma | Ingress’te ani 5xx sıçraması (Ingress5xxSpike) | Argo Rollouts ile son başarılı sürüme otomatik canary rollback |
| Kapasite Ölçeklendirme | Uygulama kuyruk derinliği artışı (inference_queue_depth > 10) | HPA maksimum replika sayısının artırılması |
| Altyapı İyileştirme | Node’un servise hazır olmaması (NodeNotReady) | İlgili node’u cordon+drain etme |
| Maliyet Koruması | Saklama süresi eşiği aştığında | Mimir/Loki için Downsampling/ILM politikalarını otomatik devreye alma |
Sonuç
Gözlemlenebilirlik; metrik, log, event ve trace verilerini tek bir anlamlı bağlama dönüştürme sanatıdır. Sekom olarak biz bu mimariyi uçtan uca kurarak, sektörde uzun yıllardır edindiğimiz datacenter altyapı tecrüberlimizi de harmanlayarak toplanan verilerin sürekli olarak öngörü ve otomasyon üretmesini sağlıyoruz.
Böylece altyapınız, yalnızca sorunlara tepki veren pasif bir sistem olmaktan çıkar; iş hedeflerini destekleyen, sürekli gelişen ve kendi kendini onarabilen bir dijital organizmaya dönüşür.
Observability mimarinizi uçtan uca monitoring çözümü oluşturmak için bizimle iletişime geçebilirsiniz.