AI Datacenter Network Mimarisi | En Hızlı GPU’lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü

AI Datacenter Network Mimarisi | En Hızlı GPU’lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü

10 Nis 2026

Günümüzde Yapay Zekâ (AI) modellerinin çeşitliliği ve kullanım yaygınlığı artık azımsanamayacak seviyelere ulaştı. Hemen hemen hayatımızın her alanına dokunan bu AI servislerinin kullanıcı olarak hep ön yüzlerini (arayüzlerini) görüyoruz. Oysa esas iş yükü, arka planda binlerce GPU’nun birbiriyle konuştuğu, devasa bir ağ altyapısı üzerinde koşturuluyor. Bu makalemizde, bir AI modelinin ne kadar hızlı eğitileceğini veya yanıt vereceğini belirleyen AI Ağ mimarisini yakından inceleyeceğiz.

AI Ağ mimarisini iki ana başlık altında değerlendirebiliriz.

Frontend, suyun üzerinde görünen ve herkesin eriştiği kısımdır. Backend ise tüm sistemin işlevselliğini ayakta tutan hesaplama ve veri yönetimi altyapısıdır.

Frontend Network

Frontend, AI altyapısının dış dünyaya açılan ve kullanıcılarla doğrudan iletişim kurduğu katmandır. Bu ağın temel amacı, kullanıcı taleplerini yani inference (çıkarım) isteklerini karşılamak, veri setlerini dış kaynaklardan sisteme çekmek ve aynı zamanda izleme ile bakım süreçleri için gerekli iletişimi sağlamaktır. Genellikle standart Ethernet protokolleri olan TCP/IP üzerinde çalışır. Gecikme bu katmanda önemli bir faktör olsa da backend tarafı kadar kritik değildir; burada asıl öncelik güvenlik, erişilebilirlik ve sistemin dış dünya ile sağlıklı bir şekilde haberleşmesidir.

İlginizi Çekebilir: Modern Veri Merkezlerinde Görünürlük: Cisco MDS SAN Analytics ile Tanışın

Örneğin; bir kullanıcı web tarayıcısından bir AI uygulamasına (örneğin chatbot) istek gönderir. Bu istek önce frontend network üzerinden uygulama sunucularına gider. Kullanıcının yazdığı prompt burada alınır ve işlenmek üzere backend’e iletilir. Günümüz de çok yoğun kullanılan ChatGPT ve Gemini Chatbot’ a örnek olarak gösterilebilir.

Backend Network

AI modeli olan LLM (Large Language Model)’in eğitildiği, veri yönetiminin sağlandığı ve hesaplama işlemlerinin gerçekleştirildiği altyapıya backend network adı verilir. Bu yapı içerisinde model eğitimi sırasında milyarlarca parametrenin GPU’lar arasında senkronize edilmesi gerekir ve bu süreçte genellikle RDMA (RoCE v2) veya InfiniBand gibi kayıpsız veri iletim teknolojileri kullanılır. Bu altyapıda oluşabilecek 1 milisaniyelik bir gecikme ya da tek bir paket kaybı bile GPU’ların boşta kalmasına (idle) ve eğitim süresinin (JCT) ciddi şekilde uzamasına neden olabilir. Hatta bazen toplam iş yükünün sonlanmasından dolayı zaman kaybına ve kullanılan enerjinin boşa harcanmış olmasına sebebiyet verir. Kısaca örnek vermek gerekirse; haftalar süren bir görevin, son gününde AI network altyapısında yaşanan bir problem nedeniyle kesintiye uğraması olabilir.

Bu makalemizdeki esas odak noktamız backend network tarafı olacaktır.


Yapay Zekâ Ağlarında Kayıpsız Mimari ve Trafik Yönetimi

Yapay zekâ (AI) ve Makine Öğrenme (ML) modelleri büyüdükçe, altyapı tasarımları genellikle sadece GPU sayıları üzerinden belirlenmektedir. Aslında dünyanın en hızlı GPU’larına sahip olsanız bile, eğer ağınız (network) bu trafiği yönetecek kapasitede değilse, donanım yatırımınızın büyük bir kısmı “bekleme süresi” (idle time) olarak boşa harcanmış olacaktır. 

Peki AI iş yüklerini geleneksel veri merkezi trafiğinden ayıran nedir ve modern bir AI Network mimarisi nasıl inşa edilir?

1-Standart Ethernet’ten “AI Fabric”e Geçiş

Klasik ağ mimarileri “kayıplı” (lossy) yapıda çalışabilir; bu durum TCP protokolü tarafından yeniden iletim mekanizmasıyla tolere edilir. Ancak yapay zekâ iş yüklerinde bu yaklaşım ciddi bir sorun yaratır ve tek bir paket kaybı, binlerce GPU’nun saniyelerce boşta beklemesi anlamına gelir ve bu da eğitim sürelerini ciddi olarak uzatır.

  • Elephant Flows (Fil Akışlar): AI eğitimi sırasında devasa veri blokları senkronize edilir. Bu akışlar o kadar büyüktür ki, standart bir anahtarın (switch) tampon belleğini (buffer) anında doldurabilir.
  • Job Completion Time (JCT): AI dünyasında başarı metriği “saniyedeki paket sayısı” değil, eğitimin ne kadar sürede bittiğidir. Ağdaki 1 milisaniyelik bir tıkanıklık, toplam eğitim süresini günlerce uzatabilir.

İlginizi Çekebilir:Yapay Zekâda Güvenilirlik ve Kontrol

2-Tıkanıklık Yönetimi

AI ağlarında en kritik problemlerden biri incast durumudur. Çok sayıda GPU’nun aynı anda tek bir hedef GPU’ya veya node’a veri göndermesi, özellikle dağıtık eğitim sırasında ciddi darboğazlara neden olur. Bu durum switch buffer’larının dolmasına, paket kayıplarına ve gecikme artışına yol açarak model eğitim süresini doğrudan etkiler.

AI ağlarında tıkanıklık yönetimi; yalnızca paket kaybını engellemek değil, aynı zamanda düşük gecikme, yüksek throughput ve deterministik performans sağlamak için çok katmanlı bir optimizasyon problemidir.

3-Tıkanıklık Çözüm Metodolojileri

  • PFC (Priority Flow Control)

Ağda bir switch’in buffer’ı dolmaya başladığında, switch göndericiye belirli bir trafik sınıfı için “dur” sinyali gönderir. Böylece ilgili trafik geçici olarak durdurularak buffer taşması engellenir.

Klasik flow control tüm hattı durdururken, PFC yalnızca sıkışıklık yaşayan trafik sınıfını etkiler. Bu sayede diğer trafik türleri (örneğin yönetim veya best-effort trafik) akmaya devam eder. Bu mekanizma, Ethernet tabanlı yapılarda lossless (kayıpsız) davranış elde etmek için kritik öneme sahiptir.

Negatif Etkisi

 Aşırı veya yanlış kullanımı durumunda Head-of-Line Blocking oluşabilir. Bu durumda, sıkışan bir trafik sınıfı diğerlerini de dolaylı olarak etkileyerek tıkanıklığın ağ geneline yayılmasına (congestion spreading) neden olabilir.

  • ECN (Explicit Congestion Notification)

Geleneksel ağlarda bir switch’in buffer’ı dolduğunda paketleri düşürmesi (packet drop) beklenen bir davranıştır. Bu mekanizma, özellikle TCP tabanlı iletişimde doğal bir tıkanıklık kontrol yöntemi olarak çalışır.

Arka planda çalışan uygulamaya ve kullanılan protokole bağlı olarak, bu paket kayıpları yeniden iletim (retransmission) mekanizmaları sayesinde belirli bir seviyeye kadar tolere edilebilir ve sistemin sürdürülebilirliği korunabilir. Ancak düşük gecikme ve yüksek senkronizasyon gerektiren AI iş yüklerinde, tek bir paket kaybı bile tüm hesaplama sürecini durdurabilir (Incast Problemi) bu yüzden geleneksel ağ mimarisinde ki bu  yaklaşım yetersiz kalmaktadır. ECN işte tam burada devreye girer.

Switch kuyruk eşiği aşıldığında paketi silmek yerine IP başlığındaki iki bitlik ECN alanını “Sıkışma Yaşandı” (CE – Congestion Experienced) olarak işaretler. Bu işaretli paketi alan alıcı GPU, göndericiye yolun sıkışık olduğunu belirten ve yavaşlaması gerektiğini bildiren bir “ECE – Echo” mesajı gönderir. Bu geri bildirim sayesinde gönderici, henüz herhangi bir paket kaybı yaşanmadan veri iletim hızını düşürerek trafiği kademeli olarak optimize etmeye başlar.

  • Paket Spreyleme (Packet Spraying)

Tıkanıklığın oluşmasını en baştan engellemeye çalışan bir Yük Dengeleme (Load Balancing) stratejisidir. Geleneksel ağlar (ECMP) bir veri akışını hep aynı yoldan gönderir. Eğer o yol doluysa tıkanıklık olur. Packet Spraying ise ağdaki tüm bant genişliğini sonuna kadar kullanmak ve tek bir hattın şişmesini önlemek amacıyla aynı akışa ait paketleri mevcut tüm yollara eşit şekilde dağıtılmasını sağlar.

Negatif Etkisi

 Paketlerin farklı yollardan gitmesi nedeniyle hedefte out-of-order (sırasız) ulaşım problemi oluşabilir. Bu durum bazı protokoller veya uygulamalar için performans sorunlarına yol açabilir.

  • RoCE (RDMA over Converged Ethernet)

Veri merkezlerinde çok düşük gecikme (low latency) ve yüksek performanslı veri transferi sağlamak için kullanılan bir ağ teknolojisidir. Standart bir Ethernet ağı üzerinde, verilerin işlemciyi (CPU) yormadan sunucular arasında doğrudan memory-to-memory iletişim kurarak veriyi yazma ve okuma kabiliyeti sağlar. RoCEv2 RDMA paketlerini UDP/IP içine kapsülleyerek Katman 3 seviyesinde yönlendirme imkanı sunar. Bu özellik sayesinde modern AI veri merkezlerinde ölçeklenebilirliği sağlamaktadır.
RoCE mimarisinin verimli çalışabilmesi için ağ tarafında lossless (kayıpsız) yapılandırma zorunludur. Bu noktada PFC (Priority Flow Control), ECN (Explicit Congestion Notification) ve uygun buffer yönetimi gibi mekanizmalar devreye girer.

İlginizi Çekebilir:Sekom’un Uçtan Uca Monitoring Mühendisliği

GPU üreticilerinin Ağ Mimarisi Yaklaşımları | Nvidia vs. Intel

AI Ağ Mimarisini tasarlarken kullanılan GPU’nun karakteristiği, ağ yapınızı doğrudan belirler. Her bir GPU üreticisi kendine ait bir ağ mimarisine sahiptir. Yapay zekâ modellerinin milyarlarca parametreye ulaştığı günümüzde, hesaplama gücü kadar bu gücü birbirine bağlayan Compute Fabric yapısı da kritik önem taşır. Bu noktada günümüzde en çok kullanılan hem Nvidia hem de Intel GPU ağ mimarilerini inceleyeceğiz.

  1-Nvidia GPU Ağ Mimarisi

Nvidia ekosisteminde Compute Fabric, InfiniBand veya Ethernet tabanlı RoCEv2 üzerinden şekilleniyor. Bu anlamda Nvidia bizlere iki farklı alternatif sunabiliyor. Burada odak, GPU ile ağın birbirinden ayrılmış ama aynı zamanda en iyi şekilde senkronize çalışmasıdır. Her ne kadar Nvidia’nın kendine ait bir InfiniBand ağı olsa da; Ethernet tabanlı mimariler de özellikle esneklik ve maliyet avantajı nedeniyle günümüzde oldukça yaygın şekilde tercih edilmektedir.

Nvidia mimarisi rail-optimized mimari olarak adlandırılır. Aşağıdaki topolojide görüldüğü gibi her bir sunucu, 400 Gbps hızında 8 adet tek portlu GPU’ya sahiptir ve her sunucunun bir GPU portu sırayla farklı leaf switch’lere bağlanmıştır. Toplamda bir leaf switch üzerinde 32 port 400 Gbps GPU bağlantısı bulunur. Aynı şekilde her leaf switch’in spine switch’e 32 port 400 Gbps hızında bağlantı sağlaması gerekir. Bunun sebebi, yaşanabilecek bir darboğazın bant genişliği açısından önüne geçmektir.

Rail-optimized Network Interconnecting TopologySekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü

   2-Intel Gaudi Mimarisi

Intel Gaudi, “Ethernet-Native” bir yaklaşım sergiler. Harici ağ kartları yerine RDMA (RoCEv2) yeteneklerini doğrudan işlemci içerisine entegre eder. Sunucu içi kablolamayı azaltırken, ağ tasarımını daha çok “standard scale-out Ethernet” yapısına yaklaştırır. Nvidia gibi Intel Gaudi mimarisi de RoCEv2 standardını kullanmayı tercih eder.

Intel Gaudi mimarisi 3-Ply olarak adlandırılır. Aşağıdaki topolojide görüldüğü üzere her sunucu 6 adet Intel Gaudi GPU’ya sahiptir ve bu GPU’lar 2’li port grupları halinde, birbirinden bağımsız 3 farklı leaf switch’e bağlanır. Bu mimarinin en önemli özelliği ise ortamda bir spine switch’e ihtiyaç duymamasıdır.

     3-Ply Network Interconnecting Topology

Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü

Ağ Altyapısın da Artan Sorumluluk

Geleneksel yaklaşımda ağ altyapısı, sunucular arasında veri iletimini sağlayan kritik sorumluluklara sahip bir bileşen olarak konumlandırılırdı. Günümüzde ise bu sorumluluk kapsamı önemli ölçüde genişletilmiş bir şekilde yapay zeka iş yüklerinin getirdiği gereksinimlerle birlikte, yalnızca bağlantıyı değil sistemin bütünsel performansını belirleyen merkezi bir rol haline gelmiştir.

AI projelerinin başarısı, bu altyapının ne kadar akıllı tasarlandığına ve yönetildiğine doğrudan bağlı.

Tasarım da ihmal edilen detaylar nedeni ile oluşabilecek sadece %2’lik bir paket kaybı toplam iş yükünün tamamlanma süresinde 8 kat bir gecikmeye sebebiyet verir.

Kayıpsız bir fabric yapısı kurmak, doğru tıkanıklık yönetimi protokollerini seçmek ve GPU mimarinize uygun topolojiyi belirlemek, yalnızca teknik tercihler değil, aynı zamanda AI yatırımlarınızın geri dönüşünü (ROI) doğrudan etkileyen stratejik kararlardır. Bu kritik kararları doğru temeller üzerine inşa etmek için daha fazla bilgi almak ve uzman değerlendirmesi talep etmek üzere Sekomla iletişime geçin.

Hazırlayan: Burak Salihoğlu, Network & Güvenlik Mühendisi – Sekom

Diğer Yazılarımız

Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
AI Datacenter Network Mimarisi | En Hızlı GPU’lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü

AI Datacenter Network Mimarisi ile yüksek performanslı, düşük gecikmeli ve ölçeklenebilir altyapılar kurun. GPU odaklı ağ tasarımları, veri akışı optimizasyonu ve yapay zeka iş yükleri...

Devamını Oku
Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
Yapay Zekâda Güvenilirlik ve Kontrol: Guardrail Tabanlı Güvenlik Yaklaşımı

Yapay zekâ güvenliğinde Guardrail ve Red Teaming yaklaşımlarını keşfedin. AI risklerini kontrol altına alın, regülasyonlara uyum sağlayın.

Devamını Oku
Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
Cisco İş Birliği Çözümleri – Modern İş Dünyasında Bağlantının Yeni Tanımı

Cisco iş birliği çözümleri hibrit çalışmayı, iletişimi geliştirin. Sekom’un Cisco Gold Partner uzmanlığıyla geleceğe hazır olun.

Devamını Oku
Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
Gözlemle, Ölç, Yönet – Sekom’un Uçtan Uca Monitoring Mühendisliği

Açık kaynak tabanlı gözlemlenebilirlik, otomasyon ve ölçeklenebilir mimarisi ile altyapınızı güçlendirin. Sekom’un yaklaşımını keşfedin!

Devamını Oku
Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
Otomasyonun Gücünü Keşfedin – AWX’ten Ansible Automation Platform’a Geçerek Verimliliği Artırın

AWX’ten Ansible Automation Platform’a geçişle süreçlerinizi modernize edin. Daha güvenli, esnek ve sürdürülebilir bir altyapıya adım atın.

Devamını Oku
Sekom | AI Datacenter Network Mimarisi | En Hızlı GPU'lar Neden Yetmez: AI İş Yüklerinde Ağ Altyapısının Belirleyici Rolü
Splunk MLTK ile Müşteri Verisini Stratejik Avantaja Dönüştürmek

Splunk MLTK müşteri verisini stratejik avantaja dönüştürün. Makine öğrenimi anomali tespiti, güvenlik ve Splunk Enterprise Security.

Devamını Oku

“Building Digital Future”

Sekom olarak, müşterilerimizin ve çalışanlarımızın memnuniyetini her zaman ön planda tutan, uzman, köklü ve güvenilir bir dijital dönüşüm entegratörüyüz.

Keşfet
Wireskop Carrier-grade service orchestration and intelligence platform UC Toolbox End-to-end visibility for Unified Communications Clarity Integrated Network and Infrastructure Observability platform
Sekans Centralized DHCP and IP address management solution Kognosphere Centralized DPI management and orchestration platform Autosphere Enterprise-scale IT automation and orchestration platform
For more information, feel free to contact us.
Wireskop Operatör seviyesinde servis orkestrasyonu ve zeka platformu UC Toolbox Birleşik İletişim altyapıları için uçtan uca görünürlük Clarity Bütünleşik Ağ ve Altyapı Gözlemlenebilirlik Platformu
Sekans Merkezi DHCP ve IP adres yönetimi çözümü Kognosphere Merkezi DPI yönetimi ve orkestrasyon platformu Autosphere Kurumsal ölçekte BT otomasyon ve orkestrasyon platformu
Daha fazla bilgi için lütfen bizimle iletişime geçin.