AI Datacenter Network Mimarisi | En Hızlı GPU’lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
10 Nis 2026
Günümüzde Yapay Zekâ (AI) modellerinin çeşitliliği ve kullanım yaygınlığı artık azımsanamayacak seviyelere ulaştı. Hemen hemen hayatımızın her alanına dokunan bu AI servislerinin kullanıcı olarak hep ön yüzlerini (arayüzlerini) görüyoruz. Oysa esas iş yükü, arka planda binlerce GPU’nun birbiriyle konuştuğu, devasa bir ağ altyapısı üzerinde koşturuluyor. Bu makalemizde, bir AI modelinin ne kadar hızlı eğitileceğini veya yanıt vereceğini belirleyen AI Ağ mimarisini yakından inceleyeceğiz.
AI Ağ mimarisini iki ana başlık altında değerlendirebiliriz.
Frontend, suyun üzerinde görünen ve herkesin eriştiği kısımdır. Backend ise tüm sistemin işlevselliğini ayakta tutan hesaplama ve veri yönetimi altyapısıdır.
Frontend Network
Frontend, AI altyapısının dış dünyaya açılan ve kullanıcılarla doğrudan iletişim kurduğu katmandır. Bu ağın temel amacı, kullanıcı taleplerini yani inference (çıkarım) isteklerini karşılamak, veri setlerini dış kaynaklardan sisteme çekmek ve aynı zamanda izleme ile bakım süreçleri için gerekli iletişimi sağlamaktır. Genellikle standart Ethernet protokolleri olan TCP/IP üzerinde çalışır. Gecikme bu katmanda önemli bir faktör olsa da backend tarafı kadar kritik değildir; burada asıl öncelik güvenlik, erişilebilirlik ve sistemin dış dünya ile sağlıklı bir şekilde haberleşmesidir.
İlginizi Çekebilir: Modern Veri Merkezlerinde Görünürlük: Cisco MDS SAN Analytics ile Tanışın
Örneğin; bir kullanıcı web tarayıcısından bir AI uygulamasına (örneğin chatbot) istek gönderir. Bu istek önce frontend network üzerinden uygulama sunucularına gider. Kullanıcının yazdığı prompt burada alınır ve işlenmek üzere backend’e iletilir. Günümüz de çok yoğun kullanılan ChatGPT ve Gemini Chatbot’ a örnek olarak gösterilebilir.
Backend Network
AI modeli olan LLM (Large Language Model)’in eğitildiği, veri yönetiminin sağlandığı ve hesaplama işlemlerinin gerçekleştirildiği altyapıya backend network adı verilir. Bu yapı içerisinde model eğitimi sırasında milyarlarca parametrenin GPU’lar arasında senkronize edilmesi gerekir ve bu süreçte genellikle RDMA (RoCE v2) veya InfiniBand gibi kayıpsız veri iletim teknolojileri kullanılır. Bu altyapıda oluşabilecek 1 milisaniyelik bir gecikme ya da tek bir paket kaybı bile GPU’ların boşta kalmasına (idle) ve eğitim süresinin (JCT) ciddi şekilde uzamasına neden olabilir. Hatta bazen toplam iş yükünün sonlanmasından dolayı zaman kaybına ve kullanılan enerjinin boşa harcanmış olmasına sebebiyet verir. Kısaca örnek vermek gerekirse; haftalar süren bir görevin, son gününde AI network altyapısında yaşanan bir problem nedeniyle kesintiye uğraması olabilir.
Bu makalemizdeki esas odak noktamız backend network tarafı olacaktır.
Yapay Zekâ Ağlarında Kayıpsız Mimari ve Trafik Yönetimi
Yapay zekâ (AI) ve Makine Öğrenme (ML) modelleri büyüdükçe, altyapı tasarımları genellikle sadece GPU sayıları üzerinden belirlenmektedir. Aslında dünyanın en hızlı GPU’larına sahip olsanız bile, eğer ağınız (network) bu trafiği yönetecek kapasitede değilse, donanım yatırımınızın büyük bir kısmı “bekleme süresi” (idle time) olarak boşa harcanmış olacaktır.
Peki AI iş yüklerini geleneksel veri merkezi trafiğinden ayıran nedir ve modern bir AI Network mimarisi nasıl inşa edilir?
1-Standart Ethernet’ten “AI Fabric”e Geçiş
Klasik ağ mimarileri “kayıplı” (lossy) yapıda çalışabilir; bu durum TCP protokolü tarafından yeniden iletim mekanizmasıyla tolere edilir. Ancak yapay zekâ iş yüklerinde bu yaklaşım ciddi bir sorun yaratır ve tek bir paket kaybı, binlerce GPU’nun saniyelerce boşta beklemesi anlamına gelir ve bu da eğitim sürelerini ciddi olarak uzatır.
- Elephant Flows (Fil Akışlar): AI eğitimi sırasında devasa veri blokları senkronize edilir. Bu akışlar o kadar büyüktür ki, standart bir anahtarın (switch) tampon belleğini (buffer) anında doldurabilir.
- Job Completion Time (JCT): AI dünyasında başarı metriği “saniyedeki paket sayısı” değil, eğitimin ne kadar sürede bittiğidir. Ağdaki 1 milisaniyelik bir tıkanıklık, toplam eğitim süresini günlerce uzatabilir.
2-Tıkanıklık Yönetimi
AI ağlarında en kritik problemlerden biri incast durumudur. Çok sayıda GPU’nun aynı anda tek bir hedef GPU’ya veya node’a veri göndermesi, özellikle dağıtık eğitim sırasında ciddi darboğazlara neden olur. Bu durum switch buffer’larının dolmasına, paket kayıplarına ve gecikme artışına yol açarak model eğitim süresini doğrudan etkiler.
AI ağlarında tıkanıklık yönetimi; yalnızca paket kaybını engellemek değil, aynı zamanda düşük gecikme, yüksek throughput ve deterministik performans sağlamak için çok katmanlı bir optimizasyon problemidir.
3-Tıkanıklık Çözüm Metodolojileri
- PFC (Priority Flow Control)
Ağda bir switch’in buffer’ı dolmaya başladığında, switch göndericiye belirli bir trafik sınıfı için “dur” sinyali gönderir. Böylece ilgili trafik geçici olarak durdurularak buffer taşması engellenir.
Klasik flow control tüm hattı durdururken, PFC yalnızca sıkışıklık yaşayan trafik sınıfını etkiler. Bu sayede diğer trafik türleri (örneğin yönetim veya best-effort trafik) akmaya devam eder. Bu mekanizma, Ethernet tabanlı yapılarda lossless (kayıpsız) davranış elde etmek için kritik öneme sahiptir.
Negatif Etkisi
Aşırı veya yanlış kullanımı durumunda Head-of-Line Blocking oluşabilir. Bu durumda, sıkışan bir trafik sınıfı diğerlerini de dolaylı olarak etkileyerek tıkanıklığın ağ geneline yayılmasına (congestion spreading) neden olabilir.
- ECN (Explicit Congestion Notification)
Geleneksel ağlarda bir switch’in buffer’ı dolduğunda paketleri düşürmesi (packet drop) beklenen bir davranıştır. Bu mekanizma, özellikle TCP tabanlı iletişimde doğal bir tıkanıklık kontrol yöntemi olarak çalışır.
Arka planda çalışan uygulamaya ve kullanılan protokole bağlı olarak, bu paket kayıpları yeniden iletim (retransmission) mekanizmaları sayesinde belirli bir seviyeye kadar tolere edilebilir ve sistemin sürdürülebilirliği korunabilir. Ancak düşük gecikme ve yüksek senkronizasyon gerektiren AI iş yüklerinde, tek bir paket kaybı bile tüm hesaplama sürecini durdurabilir (Incast Problemi) bu yüzden geleneksel ağ mimarisinde ki bu yaklaşım yetersiz kalmaktadır. ECN işte tam burada devreye girer.
Switch kuyruk eşiği aşıldığında paketi silmek yerine IP başlığındaki iki bitlik ECN alanını “Sıkışma Yaşandı” (CE – Congestion Experienced) olarak işaretler. Bu işaretli paketi alan alıcı GPU, göndericiye yolun sıkışık olduğunu belirten ve yavaşlaması gerektiğini bildiren bir “ECE – Echo” mesajı gönderir. Bu geri bildirim sayesinde gönderici, henüz herhangi bir paket kaybı yaşanmadan veri iletim hızını düşürerek trafiği kademeli olarak optimize etmeye başlar.
- Paket Spreyleme (Packet Spraying)
Tıkanıklığın oluşmasını en baştan engellemeye çalışan bir Yük Dengeleme (Load Balancing) stratejisidir. Geleneksel ağlar (ECMP) bir veri akışını hep aynı yoldan gönderir. Eğer o yol doluysa tıkanıklık olur. Packet Spraying ise ağdaki tüm bant genişliğini sonuna kadar kullanmak ve tek bir hattın şişmesini önlemek amacıyla aynı akışa ait paketleri mevcut tüm yollara eşit şekilde dağıtılmasını sağlar.
Negatif Etkisi
Paketlerin farklı yollardan gitmesi nedeniyle hedefte out-of-order (sırasız) ulaşım problemi oluşabilir. Bu durum bazı protokoller veya uygulamalar için performans sorunlarına yol açabilir.
- RoCE (RDMA over Converged Ethernet)
Veri merkezlerinde çok düşük gecikme (low latency) ve yüksek performanslı veri transferi sağlamak için kullanılan bir ağ teknolojisidir. Standart bir Ethernet ağı üzerinde, verilerin işlemciyi (CPU) yormadan sunucular arasında doğrudan memory-to-memory iletişim kurarak veriyi yazma ve okuma kabiliyeti sağlar. RoCEv2 RDMA paketlerini UDP/IP içine kapsülleyerek Katman 3 seviyesinde yönlendirme imkanı sunar. Bu özellik sayesinde modern AI veri merkezlerinde ölçeklenebilirliği sağlamaktadır.
RoCE mimarisinin verimli çalışabilmesi için ağ tarafında lossless (kayıpsız) yapılandırma zorunludur. Bu noktada PFC (Priority Flow Control), ECN (Explicit Congestion Notification) ve uygun buffer yönetimi gibi mekanizmalar devreye girer.
İlginizi Çekebilir:Sekom’un Uçtan Uca Monitoring Mühendisliği
GPU üreticilerinin Ağ Mimarisi Yaklaşımları | Nvidia vs. Intel
AI Ağ Mimarisini tasarlarken kullanılan GPU’nun karakteristiği, ağ yapınızı doğrudan belirler. Her bir GPU üreticisi kendine ait bir ağ mimarisine sahiptir. Yapay zekâ modellerinin milyarlarca parametreye ulaştığı günümüzde, hesaplama gücü kadar bu gücü birbirine bağlayan Compute Fabric yapısı da kritik önem taşır. Bu noktada günümüzde en çok kullanılan hem Nvidia hem de Intel GPU ağ mimarilerini inceleyeceğiz.
1-Nvidia GPU Ağ Mimarisi
Nvidia ekosisteminde Compute Fabric, InfiniBand veya Ethernet tabanlı RoCEv2 üzerinden şekilleniyor. Bu anlamda Nvidia bizlere iki farklı alternatif sunabiliyor. Burada odak, GPU ile ağın birbirinden ayrılmış ama aynı zamanda en iyi şekilde senkronize çalışmasıdır. Her ne kadar Nvidia’nın kendine ait bir InfiniBand ağı olsa da; Ethernet tabanlı mimariler de özellikle esneklik ve maliyet avantajı nedeniyle günümüzde oldukça yaygın şekilde tercih edilmektedir.
Nvidia mimarisi rail-optimized mimari olarak adlandırılır. Aşağıdaki topolojide görüldüğü gibi her bir sunucu, 400 Gbps hızında 8 adet tek portlu GPU’ya sahiptir ve her sunucunun bir GPU portu sırayla farklı leaf switch’lere bağlanmıştır. Toplamda bir leaf switch üzerinde 32 port 400 Gbps GPU bağlantısı bulunur. Aynı şekilde her leaf switch’in spine switch’e 32 port 400 Gbps hızında bağlantı sağlaması gerekir. Bunun sebebi, yaşanabilecek bir darboğazın bant genişliği açısından önüne geçmektir.
Rail-optimized Network Interconnecting Topology
2-Intel Gaudi Mimarisi
Intel Gaudi, “Ethernet-Native” bir yaklaşım sergiler. Harici ağ kartları yerine RDMA (RoCEv2) yeteneklerini doğrudan işlemci içerisine entegre eder. Sunucu içi kablolamayı azaltırken, ağ tasarımını daha çok “standard scale-out Ethernet” yapısına yaklaştırır. Nvidia gibi Intel Gaudi mimarisi de RoCEv2 standardını kullanmayı tercih eder.
Intel Gaudi mimarisi 3-Ply olarak adlandırılır. Aşağıdaki topolojide görüldüğü üzere her sunucu 6 adet Intel Gaudi GPU’ya sahiptir ve bu GPU’lar 2’li port grupları halinde, birbirinden bağımsız 3 farklı leaf switch’e bağlanır. Bu mimarinin en önemli özelliği ise ortamda bir spine switch’e ihtiyaç duymamasıdır.
3-Ply Network Interconnecting Topology
Ağ Altyapısın da Artan Sorumluluk
Geleneksel yaklaşımda ağ altyapısı, sunucular arasında veri iletimini sağlayan kritik sorumluluklara sahip bir bileşen olarak konumlandırılırdı. Günümüzde ise bu sorumluluk kapsamı önemli ölçüde genişletilmiş bir şekilde yapay zeka iş yüklerinin getirdiği gereksinimlerle birlikte, yalnızca bağlantıyı değil sistemin bütünsel performansını belirleyen merkezi bir rol haline gelmiştir.
AI projelerinin başarısı, bu altyapının ne kadar akıllı tasarlandığına ve yönetildiğine doğrudan bağlı.
Tasarım da ihmal edilen detaylar nedeni ile oluşabilecek sadece %2’lik bir paket kaybı toplam iş yükünün tamamlanma süresinde 8 kat bir gecikmeye sebebiyet verir.
Kayıpsız bir fabric yapısı kurmak, doğru tıkanıklık yönetimi protokollerini seçmek ve GPU mimarinize uygun topolojiyi belirlemek, yalnızca teknik tercihler değil, aynı zamanda AI yatırımlarınızın geri dönüşünü (ROI) doğrudan etkileyen stratejik kararlardır. Bu kritik kararları doğru temeller üzerine inşa etmek için daha fazla bilgi almak ve uzman değerlendirmesi talep etmek üzere Sekomla iletişime geçin.
Hazırlayan: Burak Salihoğlu, Network & Güvenlik Mühendisi – Sekom