Двухканальная конструкция: жизненно важный элемент кластеров серверов ИИ
Фатальный недостаток одноканальной архитектуры в кластерах из тысячи графических процессоров ——
Стоимость прерывания обучения: отказ одного коммутатора Spine приводит к огромным часовым потерям для предприятия
Проблемы, чувствительные к задержкам: операции AllReduce требуют задержки синхронизации градиента.
Узкое место в надежности: традиционная древовидная топология имеет 7 потенциальных точек отказа.
Уроки, извлеченные из крови и слез: реальный случай компании, занимающейся искусственным интеллектом
В третьем квартале 2024 года производитель не смог внедрить двойные каналы связи, что привело к:
Сбой порта коммутатора привел к 72-минутному перерыву в обучении
Косвенный убыток: договорная неустойка из-за задержки поставки модели
Двухрычажная конструкция является основным решением этой проблемы.
2. Панорамный анализ двухзвенной листо-шиповой архитектуры
Схема физической топологии (включая размещение оптических модулей)
Описание ключевого компонента:
Коммутатор Spine: полностью взаимосвязанная магистраль, должна поддерживать оптический модуль OSFP 800G и ECMP
Листовой коммутатор: каждый коммутатор подключен к двум позвоночникам через два оптических модуля, чтобы избежать отказа в одной точке
Подключение к серверу: используйте активный оптический кабель 200G (AOC) для прямого подключения к Leaf.
III. Принцип двухканальной ядерной технологии
1. Однородная и неоднородная адаптация связей
Двойные каналы связи могут использовать «однородные каналы» (два канала одного типа, например, оба InfiniBand HDR) или «разнородные каналы» (например, один InfiniBand для связи с малой задержкой и один Ethernet для передачи данных с большой емкостью).
2. Динамическое распределение ресурсов ссылок

Механизм плавного переключения: использование «активного/резервного режима» или «балансировки нагрузки + динамической регулировки»:
Режим «Активный/резервный»: в нормальных условиях основной канал передает основной трафик, а резервный канал передает только пакеты контрольных сигналов; в случае сбоя резервный канал принимает на себя весь трафик в течение микросекунд, чтобы гарантировать сохранность данных.
Режим балансировки нагрузки: два канала работают одновременно, а оставшийся канал автоматически берет на себя весь трафик после сбоя (уровень протокола должен поддерживать перераспределение трафика, чтобы избежать перегрузки).
Оптический модуль FIBERTOP от производителя | Доставка в течение 72 часов | Решения для интеллектуальных вычислительных центров | Возможность настройки
