Дата-центры играют важную роль в операциях компаний Илона Маска, таких как Tesla, X Corp (Twitter) и xAI. Расположенные по всему миру, включительно, эти дата-центры обеспечивают мощную инфраструктуру для обработки и хранения данных. Что это за дата-центры, какие еще технологии использует Илон Макс для ИИ - разобрали в статье.
Дата-центры и IT-оборудование Tesla
Tesla использует дата-центры для обработки огромных массивов данных, которые собирают со своих электромобилей. Речь идет о данных с сенсоров, поведении водителей и производительности системы Autopilot. Эти ресурсы поддерживают обучение искусственного интеллекта, необходимого для улучшения технологии Full Self-Driving (FSD), которая активно тестируется и совершенствуется для автономного вождения. Важную роль здесь играет суперкомпьютер Dojo, разработанный для работы с петабайтами видео-данных, собираемых с машин Tesla, что позволяет быстрее и эффективнее тренировать нейросети, направленные на реализацию полноценного автопилота.
Помимо развития функций автопилота и обучения ИИ, дата-центры Tesla играют важную роль во всей экосистеме ее продуктов и услуг. Они обеспечивают работу внутреннего навигационного ПО, управление данными для домашних батарей Powerwall и облегчают доступ к сети Supercharger - сети быстрых зарядных станций для электромобилей Tesla. Компания также планирует расширить свои дата-центры в Китае, чтобы поддержать дальнейшее развитие FSD в этом регионе, поскольку там ожидается высокий спрос на полуавтономные и автономные технологии.
Ускорители высокопроизводительных вычислений
Tesla использует мощные вычислительные ускорители в своих ЦОД для работы над проектами в области AI и автономного вождения. В дополнение к кластерам графических процессоров (GPU) NVIDIA Tesla также разрабатывает и внедряет собственные чипы D1 - предназначенные для обучения нейросетей на суперкомпьютере Dojo. Этот суперкомпьютер используется для обработки огромного объема данных, собираемых с электромобилей Tesla, и обеспечивает более эффективное обучение моделей для усовершенствования системы Full Self-Driving (FSD).
Кластеры GPU
Сейчас Tesla установила более 35 000 графических процессоров NVIDIA H100 для кластеров AI-обучения, которые используются для разработки технологии автономного вождения Full Self-Driving (FSD). К концу 2024 года Tesla планирует увеличить количество таких GPU до 90 000.
Однако в 2024 году Илон Маск решил перенаправить часть GPU, зарезервированных для Tesla, в X Corp (Twitter) и xAI. Объяснив это тем, что Tesla пока не имеет необходимой инфраструктуры для их использования.
Суперкомпьютер Dojo и чипы D1
Dojo - это уникальный суперкомпьютер, разработанный Tesla для работы с большими задачами машинного обучения и обработки петабайтов данных, поступающих с электромобилей Tesla. Эти данные, в основном видеоматериалы, используются для более эффективного обучения нейронных сетей, что необходимо для улучшения работы FSD. Tesla ставит целью превзойти традиционные возможности GPU с помощью Dojo, используя специально разработанные чипы D1, которые ориентированы на задачи AI-обучения. Илон также отметил, что Tesla планирует «удвоить усилия» в разработке Dojo, инвестируя более 1 миллиарда долларов в его развитие.
В более широком контексте, Tesla ожидает, что капитальные расходы (CapEx) компании превысят 10 миллиардов долларов в 2024 году.
Компоненты суперкомпьютера Dojo Tesla
Ниже представлен подробный разбор аппаратной архитектуры, поддерживающей суперкомпьютер Dojo от Tesla, начиная с самого маленького компонента - чипа D1 и до полного суперкомпьютера Dojo.
Чип D1. Основной кастомный чип, разработанный Tesla специально для задач AI-обучения. Каждый чип имеет вычислительную мощность 362 терафлопс (TFLOPS).
Тренировочный блок. Группа из 25 чипов D1, работающих совместно и расположенных в конфигурации 5×5. Тренировочный блок способен достигать до 9 петабайтов (PFLOPS) вычислительной мощности.
Системный лоток. Содержит 6 тренировочных блоков, объединенных на одной плате. Системный лоток может достигать до 54 петабайтов (PFLOPS) вычислительной мощности.
Шкаф. Содержит 2 системных лотка с резервными источниками питания, обеспечивая до 108 петабайт (PFLOPS) вычислительной мощности. Шкафы также содержат ключевые сборки, включая процессоры интерфейса Dojo: память для обучения (32 ГБ высокоскоростной DRAM) и разъединенную память (640 ГБ высокоскоростной DRAM), а также интерфейс хоста Dojo (всего 512 ядер x86).
ExaPOD. Система из 10 шкафов, представляющая собой 1,1 эксафлопс (квинтиллионы операций с плавающей точкой в секунду) вычислительной мощности.
Суперкомпьютер Dojo. Первоначальная настройка суперкомпьютера Dojo от Tesla содержала примерно 3000 чипов D1, состоящих из тренировочных блоков (25 чипов D1), системных лотков (6 тренировочных блоков), шкафов (2 системных лотка) и 10 шкафов, образующих ExaPOD. Модульная архитектура Dojo позволяет комбинировать несколько ExaPOD, что позволяет масштабировать систему Dojo для еще большей мощности.
Суперкомпьютер Dojo от Tesla разработан для того, чтобы соединять и масштабировать вычислительные мощности с целью высокопроизводительного, высокоскоростного и с низкой задержкой обучения нейронных сетей. Компания утверждает, что с помощью Dojo время обучения AI может быть сокращено с месяца до недели.
К концу 2024 года система Dojo 1 будет иметь вычислительные мощности, эквивалентные примерно 8 000 графических процессоров NVIDIA H100, в то время как Tesla планирует достичь 100 эксафлопс вычислительных мощностей для внутреннего обучения нейронных сетей.
Питание и охлаждение суперкомпьютера Tesla Dojo суперкомпьютера Tesla
Достаточное энергопотребление и охлаждение имеют решающее значение для суперкомпьютера Tesla Dojo благодаря его компактным и высокопроизводительным компонентам, включая чипы D1 и ExaPODs. Эта ИТ-инфраструктура требует значительного энергопотребления и выделяет огромное количество тепла во время интенсивных задач по обучению AI. Эффективное управление этим выделением тепла необходимо для обеспечения оптимальной производительности и предотвращения сбоев оборудования.
Dojo поддерживает мощность более 200 кВт на шкаф. Чтобы удовлетворить свои требования к высокой мощности охлаждения, Dojo использует специальный блок распределения охлаждения (CDU), как показано выше.
Локации дата-центров Tesla
Tesla управляет несколькими стратегически важными дата-центрами по всей территории США и за рубежом для поддержки своих потребностей в вычислительных мощностях.
Остин, Техас
Tesla строит новый суперкомпьютер Dojo в своей штаб-квартире в Остине, Техас, чтобы разместить свой самый большой кластер для обучения ИИ. Этот кластер будет расположен рядом с заводом по производству автомобилей Giga Texas и сейчас находится на стадии строительства, при этом предусмотрена водяная система охлаждения.
Сейчас Tesla переносит серверные стойки с H100 GPU в только что завершенное расширение Giga Texas на юге. Кластер для обучения ИИ будет включать 2 000 графических процессоров NVIDIA H100 и 20 000 компьютеров AI5 от Tesla. В конце концов южное расширение Giga Texas разместит кластер из 50 000 графических процессоров NVIDIA H100, который поможет ускорить развитие технологии Full Self-Driving (FSD) от Tesla.
Рено (Спаркс), Невада
Tesla открыла дата-центр на своем заводе Gigafactory Nevada, который занимается производством литий-ионных аккумуляторов и компонентов для электромобилей в Спарксе, Невада. Кроме того, Tesla является клиентом компании Switch, Inc. на кампусе Citadel, расположенном рядом с Gigafactory Nevada в Спарксе. Компания Switch также делит с Tesla солнечную электростанцию в этом районе.
Сан-Хосе, Калифорния
Tesla управляет суперкомпьютером Dojo в Сан-Хосе, Калифорния. Также компания планирует установить 7 ExaPOD в Пало-Альто, Калифорния, который является центром инженерных и научно-исследовательских работ Tesla. Это расширение, вероятно, увеличит вычислительные мощности Tesla до 8,8 эксафлопс (вместо текущих 1,1 эксафлопс).
Сакраменто, Калифорния
Tesla арендует дата-центр в Сакраменто, Калифорния, у NTT Global Data Centers, который ранее был освобожден компанией X Corp (бывший Twitter). Этот дата-центр используется для обработки рабочих нагрузок по машинному обучению, включая симуляции автономных автомобилей.
Шанхай, Китай
Tesla управляет дата-центром в Шанхае, чтобы соответствовать китайским нормативным требованиям, которые требуют хранения данных на местном уровне. Компания хранит все данные, связанные с продажами автомобилей на материковом Китае, локально, что позволяет удовлетворить требования китайских властей по безопасности данных.
Компания GDS Holdings, крупнейший оператор нейтральных дата-центров в Китае, заявила, что Tesla является одним из ее клиентов. В целом GDS управляет 28 объектами в Шанхае и районе дельты Янцзы.
Дата-центры X Corp (Twitter)
X Corp (ранее Twitter) использует дата-центры для хранения и обработки огромных объемов данных пользователей, включая твиты, прямые сообщения и загрузки медиафайлов. Эти дата-центры также поддерживают алгоритмы платформы для рекомендаций контента, анализа трендов и таргетинга рекламы, что позволяет сервису обрабатывать миллионы взаимодействий в реальном времени по всему миру.
С момента покупки Twitter Илоном Маском за $44 миллиарда в октябре 2022 года компания упрощает свою ИТ-инфраструктуру, выполняя следующие шаги:
- закрытие и сокращение количества дата-центров
- снижение серверных мощностей
- снижение расходов на облачные технологии
Несмотря на эти сокращения, X Corp увеличила мощность своих ускорителей высокопроизводительных вычислений. Компания недавно приобрела 10 000 графических процессоров NVIDIA для разработки АИ, с целью создания кластеров суперкомпьютеров на базе GPU на своей территории.
В США X Corp управляет дата-центрами в нескольких ключевых локациях:
Атланта, Джорджия
X Corp арендует мощность в дата-центрах QTS Data Centers в районе Атланты, Джорджия. Одним из значимых объектов является дата-центр QTS Atlanta 1 DC1 и DC2.
Кроме того, в дата-центре QTS Atlanta 1 DC2, компания X Corp получила налоговые льготы в размере 10,1 млн долларов в течение 10 лет в рамках проекта стоимостью 700 млн долларов по развертыванию ИТ-оборудования и аппаратуры искусственного интеллекта на объекте.
Однако X Corp также недавно сократила штат нераскрытого предприятия в Атланте.
Портленд (Хиллсборо), Орегон
X Corp арендует более 50 мегаватт (МВт) мощности в дата-центрах, принадлежащих компании Digital Realty, в Хиллсборо, Орегон, западном пригороде Портленда. Орегон имеет избыточные гидроэнергетические ресурсы, что обеспечивает низкую стоимость и экологически чистое электричество для дата-центров.
Сакраменто, Калифорния - Закрытие
В рамках рационализации своей ИТ-инфраструктуры X Corp покинула объект, принадлежащий NTT Global Data Centers, в Сакраменто, Калифорния, по истечении срока аренды. Позже Tesla заняла часть освободившегося пространства в этом дата-центре. X Corp также закрыла другое предприятие в Сакраменто, принадлежащее Prime Data Centers. Ранее это предприятие было закрыто в сентябре 2022 года во время аномальной жары в Калифорнии. В целом X Corp утверждает, что с закрытием своих дата-центров в Сакраменто сэкономила $100 миллионов в год. Закрытие освободило 48 МВт мощности и включало перемещение 5 200 стоек и 148 000 серверов.
Поставщики облачных услуг (CSPs)
X Corp заключила многолетние контракты с облачными сервисами, в частности AWS, Google Cloud и Oracle Cloud. Тем не менее, компания сообщила о 60% сокращении своих ежемесячных расходов на облачные услуги благодаря репатриации рабочих нагрузок. Также было сокращено на 60% площадь облачного хранения данных и на 75% снизились затраты на обработку облачных данных.
Центры обработки данных xAI
xAI - это компания, занимающаяся искусственным интеллектом, основанная Илоном Маском в 2023 году с целью разработки передовых систем искусственного интеллекта для понимания истинной природы Вселенной. Компания стремится создать «хороший AGI» (общий искусственный интеллект) и выпустила чат-бота с искусственным интеллектом и языковую модель Grok.
В мае 2024 года xAI привлекла капитал в размере 6 миллиардов долларов, оценив компанию в 24 миллиарда долларов. Кроме того, Илон Маск в настоящее время добивается одобрения совета директоров Tesla на инвестиции в xAI в размере 5 миллиардов долларов.
xAI использует дата-центры для обеспечения вычислительной мощности и хранения данных, необходимых для обучения и работы своего чат-бота с искусственным интеллектом Grok. Эти дата-центры выполняют задачи, такие как обучение модели обработки естественного языка на данных пользователей X Corp (Twitter), выполнение выводов и хранение огромных объемов данных. Кроме того, Илон Маск упомянул о возможных возможностях интеграции Grok в программное обеспечение Tesla.
Мемфис, Теннесси
xAI планирует построить самый большой суперкомпьютер в мире, названный «Гигафабрика вычислений», в Мемфисе. Этот суперкомпьютер будет размещен в 150МВт дата-центре, расположенном в промышленном парке рядом с рекой Миссисипи. Конкретно дата-центр займет бывший завод Electrolux в районе Бокстаун на юге Мемфиса.
Илон Маск планирует полностью ввести в эксплуатацию новый завод xAI к осени 2025 года, что представляет собой многомиллиардные инвестиции в Мемфисе. В рамках этого обязательства xAI планирует потратить 24 миллиона долларов на новую подстанцию и взяла на себя обязательство по вводу 150 МВт электроэнергии от Memphis Light, Gas and Water (MLGW) к концу 2024 года.
Поставщики облачных услуг (CSPs)
Oracle Cloud предоставляет значительную часть имеющейся инфраструктуры для обучения ИИ xAI. В настоящее время xAI арендует около 16 000 GPU NVIDIA H100 в Oracle Cloud.
xAI заключила контракт на 24 000 GPU NVIDIA H100 с Oracle Cloud для обучения Grok-2 В июле 2024 года xAI, как сообщается, прекратила переговоры о $10 миллиардном многолетнем расширении ИИ и закупке дополнительной мощности GPU/серверов в Oracle Cloud.
Кроме того, xAI использует облачные услуги от Amazon Web Services (AWS) и использует резервную мощность дата-центров X Corp (Twitter).
Tesla использует дата-центры для обработки огромных массивов данных, которые собирают со своих электромобилей. Речь идет о данных с сенсоров, поведении водителей и производительности системы Autopilot. Эти ресурсы поддерживают обучение искусственного интеллекта, необходимого для улучшения технологии Full Self-Driving (FSD), которая активно тестируется и совершенствуется для автономного вождения. Важную роль здесь играет суперкомпьютер Dojo, разработанный для работы с петабайтами видео-данных, собираемых с машин
Tesla, что позволяет быстрее и эффективнее тренировать нейросети, направленные на реализацию полноценного автопилота.
Помимо развития функций автопилота и обучения ИИ, дата-центры
Tesla играют важную роль во всей экосистеме ее продуктов и услуг. Они обеспечивают работу внутреннего навигационного ПО, управление данными для домашних батарей Powerwall и облегчают доступ к сети Supercharger - сети быстрых зарядных станций для электромобилей Tesla. Компания также планирует расширить свои дата-центры в Китае, чтобы поддержать дальнейшее развитие FSD в этом регионе, поскольку там ожидается высокий спрос на полуавтономные и автономные технологии.
Ваш комментарий