Листоп
2024
Дата-центри Ілона Маска: Tesla, Dojo, X (Twitter), xAI
Дата-центри відіграють найважливішу роль в операціях компаній Ілона Маска, таких як Tesla, X Corp (Twitter) і xAI, підтримуючи їхні сервіси, розробку ШІ та взаємодію з користувачами. Розташовані по всьому світу, включно з Остіном, Спарксом, Шанхаєм та іншими ключовими містами, ці дата-центри забезпечують потужну інфраструктуру для оброблення та зберігання даних. У статті описується суперкомп'ютер Dojo і чип D1, а також інфраструктура X Corp і xAI, що підтримує чат-бот Grok, який, за твердженнями Маска, прискорить створення штучного загального інтелекту (AGI) протягом найближчих двох років.
Дата-центри та IT-обладнання Tesla
Tesla використовує дата-центри для обробки величезних масивів даних, які збирають зі своїх електромобілів, включно з даними з сенсорів, поведінкою водіїв і продуктивністю системи Autopilot. Ці ресурси підтримують навчання штучного інтелекту, необхідного для поліпшення технології Full Self-Driving (FSD), яка активно тестується і вдосконалюється для автономного водіння. Важливу роль тут відіграє суперкомп'ютер Dojo, розроблений для роботи з петабайтами відео-даних, які збирають із машин Tesla, що дає змогу швидше й ефективніше тренувати нейромережі, спрямовані на реалізацію повноцінного автопілота.
Крім телеметрії автомобілів і навчання ШІ, дата-центри Tesla відіграють критично важливу роль у всій екосистемі її продуктів і послуг. Вони забезпечують роботу внутрішнього навігаційного ПЗ, управління даними для домашніх батарей Powerwall і полегшують доступ до мережі Supercharger - мережі швидких зарядних станцій для електромобілів Tesla. Компанія також планує розширити свої дата-центри в Китаї, щоб підтримати подальший розвиток FSD у цьому регіоні, оскільки там очікується високий попит на напівавтономні та автономні технології.
Прискорювачі високопродуктивних обчислень
Tesla використовує потужні обчислювальні прискорювачі у своїх центрах обробки даних для роботи над проектами в галузі штучного інтелекту та автономного водіння. На додаток до кластерів графічних процесорів (GPU) NVIDIA Tesla також розробляє і впроваджує власні чіпи D1, призначені для навчання нейромереж на суперкомп'ютері Dojo. Цей суперкомп'ютер використовується для опрацювання величезного обсягу даних, що збираються з електромобілів Tesla, і забезпечує більш ефективне навчання моделей для удосконалення системи Full Self-Driving (FSD).
Кластери GPU
Наразі Tesla встановила понад 35 000 графічних процесорів NVIDIA H100 для кластерів ШІ-навчання, які використовуються для розробки технології автономного водіння Full Self-Driving (FSD). До кінця 2024 року Tesla планує збільшити кількість таких GPU до 90 000.
Однак у 2024 році Ілон Маск вирішив переспрямувати частину GPU, зарезервованих для Tesla, в X Corp (Twitter) і xAI, пояснивши це тим, що Tesla поки що не має необхідної інфраструктури для їхнього використання, і обладнання залишилося б на складі.
Суперкомп'ютер Dojo і чипи D1
Dojo - це унікальний суперкомп'ютер, розроблений Tesla для роботи з великими завданнями машинного навчання і обробки петабайтів даних, що надходять з електромобілів Tesla. Ці дані, здебільшого відеоматеріали, використовуються для ефективнішого навчання нейронних мереж, що необхідно для поліпшення роботи FSD. Tesla ставить за мету перевершити традиційні можливості GPU за допомогою Dojo, використовуючи спеціально розроблені чіпи D1, які орієнтовані на завдання ШІ-навчання. Ілон Маск також зазначив, що Tesla планує «подвоїти зусилля» в розробці Dojo, інвестуючи більше ніж $1 млрд у його розвиток, включно з витратами на дослідження, розробку чипів і утримання центрів даних.
У ширшому контексті, Tesla очікує, що капітальні витрати (CapEx) компанії перевищать $10 млрд у 2024 році.
Компоненти суперкомп'ютера Dojo Tesla
Нижче представлено детальний розбір апаратної архітектури, що підтримує суперкомп'ютер Dojo від Tesla, починаючи з найменшого компонента - чіпа D1 і до повного суперкомп'ютера Dojo:
Чип D1: Основний кастомний чип ШІ, розроблений Tesla спеціально для завдань ШІ-навчання. Кожен чіп D1 має обчислювальну потужність 362 терафлопс (TFLOPS).
Тренувальний блок: Група з 25 чипів D1, що працюють спільно і розташовані в конфігурації 5×5. Тренувальний блок здатний досягати до 9 петабайтів (PFLOPS) обчислювальної потужності.
Системний лоток: Містить 6 тренувальних блоків, об'єднаних на одній платі. Системний лоток може досягати до 54 петабайтів (PFLOPS) обчислювальної потужності.
Шафа: Містить 2 системні лотки з резервними джерелами живлення, забезпечуючи до 108 петабайтів (PFLOPS) обчислювальної потужності. Шафи також містять ключові збірки, включно з процесорами інтерфейсу Dojo: пам'ять для навчання (32 ГБ високошвидкісної DRAM) і роз'єднану пам'ять (640 ГБ високошвидкісної DRAM), а також інтерфейс хоста Dojo (всього 512 ядер x86).
ExaPOD: Система з 10 шаф, що являє собою 1,1 ексафлопс (квінтильйони операцій із плаваючою крапкою на секунду) обчислювальної потужності.
Суперкомп'ютер Dojo: Початкове налаштування суперкомп'ютера Dojo від Tesla містило приблизно 3000 чипів D1, що складалися з тренувальних блоків (25 чипів D1), системних лотків (6 тренувальних блоків), шаф (2 системні лотки) та 10 шаф, що утворюють ExaPOD. Модульна архітектура Dojo дає змогу комбінувати кілька ExaPOD, що дає можливість масштабувати систему Dojo для ще більшої потужності.
Суперкомп'ютер Dojo від Tesla розроблений для того, щоб з'єднувати і масштабувати обчислювальні потужності з метою високопродуктивного, високошвидкісного і з низькою затримкою навчання нейронних мереж. Компанія стверджує, що за допомогою Dojo час навчання ШІ може бути скорочено з місяця до тижня.
До кінця 2024 року система Dojo 1 матиме обчислювальні потужності, еквівалентні приблизно 8 000 графічних процесорів NVIDIA H100, водночас Tesla планує досягти 100 ексафлопс обчислювальних потужностей для внутрішнього навчання нейронних мереж.
Живлення та охолодження суперкомп'ютера Tesla Dojo
Достатнє енергоспоживання та охолодження мають вирішальне значення для суперкомп'ютера Tesla Dojo завдяки його компактним і високопродуктивним компонентам, включно з чіпами D1 і ExaPODs. Ця ІТ-інфраструктура вимагає значного енергоспоживання і виділяє величезну кількість тепла під час інтенсивних завдань з навчання ШІ. Ефективне управління цим виділенням тепла необхідне для забезпечення оптимальної продуктивності та запобігання збоїв обладнання.
Dojo підтримує потужність понад 200 кіловат (кВт) на шафу (і мегават на модуль ExaPOD). Щоб задовольнити свої вимоги до високої потужності охолодження, Dojo використовує спеціальний блок розподілу охолодження (CDU), як показано вище.
Локації дата-центрів Tesla
Tesla управляє кількома стратегічно важливими дата-центрами по всій території США і за кордоном для підтримки своїх потреб в обчислювальних потужностях.
Остін, Техас
Tesla будує новий суперкомп'ютер Dojo у своїй штаб-квартирі в Остіні, Техас, щоб розмістити свій найбільший кластер для навчання ШІ на сьогоднішній день. Цей кластер буде розташований поруч із заводом із виробництва автомобілів Giga Texas і наразі перебуває на стадії будівництва (із затримками), при цьому передбачена водяна система охолодження.
Наразі Tesla переносить серверні стійки з H100 GPU у щойно завершене розширення Giga Texas на півдні. Кластер для навчання ШІ включатиме 2 000 графічних процесорів NVIDIA H100 і 20 000 комп'ютерів AI5 від Tesla. Зрештою південне розширення Giga Texas розмістить кластер із 50 000 графічних процесорів NVIDIA H100, який допоможе прискорити розвиток технології Full Self-Driving (FSD) від Tesla.
Рено (Спаркс), Невада
Tesla відкрила дата-центр на своєму заводі Gigafactory Nevada, який займається виробництвом літій-іонних акумуляторів і компонентів для електромобілів у Спарксі, Невада, неподалік від Рено, в окрузі Сторі. Крім того, Tesla є клієнтом компанії Switch, Inc. на кампусі Citadel, розташованому поруч із Gigafactory Nevada в Спарксі. Компанія Switch також ділить з Tesla сонячну електростанцію в цьому районі.
Сан-Хосе, Каліфорнія
Tesla керує суперкомп'ютером Dojo в Сан-Хосе, Каліфорнія. Також компанія планує встановити 7 ExaPOD у Пало-Альто, Каліфорнія, який є центром інженерних і науково-дослідних робіт Tesla. Це розширення, ймовірно, збільшить обчислювальні потужності Tesla до 8,8 ексафлопс (замість поточних 1,1 ексафлопс).
Сакраменто, Каліфорнія
Tesla орендує дата-центр у Сакраменто, Каліфорнія, у NTT Global Data Centers, який раніше був звільнений компанією X Corp (колишній Twitter). Цей дата-центр використовується для опрацювання робочих навантажень з машинного навчання, включно із симуляціями автономних автомобілів.
Шанхай, Китай
Tesla управляє дата-центром у Шанхаї, Китай, щоб відповідати китайським нормативним вимогам, які вимагають зберігання даних на місцевому рівні. Компанія зберігає всі дані, пов'язані з продажами автомобілів на материковому Китаї, локально, що дає змогу задовольнити вимоги китайської влади щодо безпеки даних.
Компанія GDS Holdings, найбільший оператор нейтральних дата-центрів у Китаї, заявила, що Tesla є одним з її клієнтів. Загалом GDS управляє 28 об'єктами в Шанхаї і районі дельти Янцзи.
Дата-центри X Corp (Twitter)
X Corp (раніше Twitter) використовує дата-центри для зберігання і обробки величезних обсягів даних користувачів, включно з твітами, прямими повідомленнями і завантаженням медіафайлів. Ці дата-центри також підтримують алгоритми платформи для рекомендацій контенту, аналізу трендів і таргетингу реклами, що дає змогу сервісу обробляти мільйони взаємодій у реальному часі по всьому світу.
З моменту купівлі Twitter Ілоном Маском за $44 мільярди в жовтні 2022 року компанія спрощує свою ІТ-інфраструктуру, виконуючи такі кроки:
- Закриття і скорочення кількості дата-центрів
- Зниження серверних потужностей
- Зниження витрат на хмарні технології
Незважаючи на ці скорочення, X Corp збільшила потужність своїх прискорювачів високопродуктивних обчислень. Компанія нещодавно придбала 10 000 графічних процесорів NVIDIA для розробки ШІ, з метою створення кластерів суперкомп'ютерів на базі GPU на своїй території.
У США X Corp управляє дата-центрами в декількох ключових локаціях:
Атланта, Джорджія
X Corp орендує потужність у дата-центрах QTS Data Centers у районі Атланти, Джорджія. Одним зі значущих об'єктів є дата-центр QTS Atlanta 1 DC1 і DC2.
Крім того, в дата-центрі QTS Atlanta 1 DC2, компанія X Corp отримала податкові пільги в розмірі 10,1 млн доларів протягом 10 років у рамках проєкту вартістю 700 млн доларів із розгортання ІТ-обладнання та апаратури штучного інтелекту на об'єкті.
Однак X Corp також нещодавно скоротила штат нерозкритого підприємства в Атланті.
Портленд (Хіллсборо), Орегон
X Corp орендує понад 50 мегават (МВт) потужності в дата-центрах, що належать компанії Digital Realty, в Хіллсборо, Орегон, західному передмісті Портленда. Орегон має надлишкові гідроенергетичні ресурси, що забезпечує низьку вартість (від $0.05 до $0.07 за кВт⋅год) та екологічно чисту електрику для дата-центрів.
Сакраменто, Каліфорнія - Закриття
У рамках раціоналізації своєї ІТ-інфраструктури X Corp покинула об'єкт, що належить NTT Global Data Centers, у Сакраменто, Каліфорнія, після закінчення терміну оренди. Пізніше Tesla зайняла частину простору, що звільнився в цьому дата-центрі.
X Corp також закрила інше підприємство в Сакраменто, що належить Prime Data Centers. Раніше це підприємство було закрито у вересні 2022 року під час аномальної спеки в Каліфорнії.
Загалом X Corp стверджує, що із закриттям своїх дата-центрів у Сакраменто заощадила $100 мільйонів на рік. Закриття звільнило 48 МВт потужності і включало переміщення 5 200 стійок і 148 000 серверів.
Постачальники хмарних послуг (CSPs)
X Corp уклала багаторічні контракти з хмарними сервісами, зокрема Amazon Web Services (AWS), Google Cloud і Oracle Cloud. Проте, компанія повідомила про 60%-ве скорочення своїх щомісячних витрат на хмарні послуги завдяки репатріації робочих навантажень. Також було скорочено на 60% площу хмарного зберігання даних і на 75% знизилися витрати на обробку хмарних даних.
Центри обробки даних xAI
xAI - це компанія, що займається штучним інтелектом, заснована Ілоном Маском 2023 року з метою розробки передових систем штучного інтелекту для розуміння істинної природи Всесвіту. Компанія прагне створити «хороший AGI» (загальний штучний інтелект) і випустила чат-бота зі штучним інтелектом і мовну модель Grok.
У травні 2024 року xAI залучила капітал у розмірі 6 мільярдів доларів, оцінивши компанію в 24 мільярди доларів. Крім того, Ілон Маск наразі домагається схвалення ради директорів Tesla на інвестиції в xAI в розмірі 5 мільярдів доларів.
xAI використовує дата-центри для забезпечення обчислювальної потужності та зберігання даних, необхідних для навчання і роботи свого чат-бота зі штучним інтелектом Grok. Ці дата-центри виконують завдання, такі як навчання моделі обробки природної мови на даних користувачів X Corp (Twitter), виконання висновків і зберігання величезних обсягів даних. Крім того, Ілон Маск згадав про можливі можливості інтеграції Grok у програмне забезпечення Tesla.
xAI випустила Grok-1.5 і наразі навчає Grok-2 з використанням 20 000 GPU NVIDIA H100. Ілон Маск оцінює, що для Grok-3 буде потрібно 100 000 GPU. У зв'язку з цим найближчі плани xAI для дата-центрів включають:
Розгортання навчального кластера зі 100 000 GPU NVIDIA H100 з рідинним охолодженням до кінця 2024 року
Додавання ще одного кластера з 300 000 GPU NVIDIA B200 (Blackwell), починаючи з літа 2025 року
Мемфіс, Теннессі
xAI планує побудувати найбільший суперкомп'ютер у світі, названий «Гігафабрика обчислень», у Мемфісі, Теннессі. Цей суперкомп'ютер буде розміщений у 150-мегаватному (МВт) дата-центрі, розташованому в промисловому парку поруч із річкою Міссісіпі на південному заході Мемфіса. Конкретно дата-центр займе колишній завод Electrolux площею 750 000 квадратних футів у районі Бокстаун на півдні Мемфіса.
Ілон Маск планує повністю ввести в експлуатацію новий завод xAI до осені 2025 року, що являє собою багатомільярдні інвестиції в Мемфісі. У рамках цього зобов'язання xAI планує витратити 24 мільйони доларів на нову підстанцію і взяла на себе зобов'язання щодо введення 150 МВт електроенергії від Memphis Light, Gas and Water (MLGW) до кінця 2024 року.
Відома також як Мемфіський суперкластер, система використовуватиме єдину мережу RDMA (Remote Direct Memory Access), щоб підключити до 100 000 GPU NVIDIA H100. Сервери для суперкомп'ютера xAI в Мемфісі постачають Dell і Supermicro.
Постачальники хмарних послуг (CSPs)
Oracle Cloud надає значну частину наявної інфраструктури для навчання ШІ xAI:
В даний час xAI орендує близько 16 000 GPU NVIDIA H100 в Oracle Cloud
xAI уклала контракт на 24 000 GPU NVIDIA H100 з Oracle Cloud для навчання Grok-2 У липні 2024 року xAI, як повідомляють, припинила переговори про $10 мільярдне багаторічне розширення ШІ та закупівлю додаткової потужності GPU/серверів в Oracle Cloud.
Крім того, xAI використовує хмарні послуги від Amazon Web Services (AWS) і використовує резервну потужність дата-центрів X Corp (Twitter).
Коментарі
Читати ще
Листоп
2024
Ваш коментар