FuriosaAI RNGD — энергоэффективный ИИ-ускоритель для LLM и дата-центров

Южнокорейский стартап FuriosaAI начал отгрузки своего первого ИИ-чипа RNGD (Renegade) — энергоэффективного ускорителя инференса для LLM и агентных AI-систем, доступного в виде PCIe-карты и готового серверного решения.

Новый игрок на рынке ИИ-ускорителей

Компания FuriosaAI официально запустила поставки своего первого специализированного ИИ-процессора RNGD (Renegade). Первая партия из 4 000 чипов уже получена от производственных партнёров TSMC и ASUS. Решение ориентировано на корпоративные дата-центры, которым требуется высокая производительность инференса без резкого роста энергопотребления и инфраструктурных затрат.

По словам генерального директора FuriosaAI Джун Пайк, индустрии необходима альтернатива существующим ускорителям, способная работать в стандартных серверных стойках без перехода на сложные системы жидкостного охлаждения.

Производительность для LLM и агентного ИИ

RNGD позиционируется как ускоритель инференса для крупных языковых моделей, генеративного ИИ и агентных систем. Чип обеспечивает производительность до 512 TFLOPS (INT8), сочетая вычислительную плотность и энергоэффективность.

Компания заявляет, что решения на базе RNGD обеспечивают до 3,5 раз большую вычислительную плотность на стойку по сравнению с системами на базе NVIDIA H100 при работе в стандартных условиях охлаждения.

FuriosaAI уже продемонстрировала запуск моделей, включая GPT-OSS от OpenAI, оптимизированный для работы на двух RNGD-картах, а также получила внедрение своей архитектуры в проектах LG AI Research (EXAONE).

Два форм-фактора для внедрения в инфраструктуру

RNGD предлагается в двух вариантах поставки.

PCIe-карта RNGD предназначена для установки в существующие серверы и имеет тепловой пакет всего 180 Вт, что делает её совместимой с традиционными системами воздушного охлаждения.

Второй вариант — сервер NXT RNGD формата 4U, содержащий восемь ускорителей RNGD. Потребление всей системы составляет около 3 кВт, благодаря чему в стандартной стойке можно разместить до пяти таких серверов. Это даёт суммарную производительность до 20 петафлопс (INT8) на стойку.

Программная экосистема и поддержка моделей

Важной частью платформы является SDK Furiosa, включающий инструменты оптимизации, такие как межчиповый тензорный параллелизм. Поддерживаются популярные модели, включая Qwen 2 и Qwen 2.5.

SDK обеспечивает совместимость с torch.compile, предлагает замену для vLLM, а также поддерживает OpenAI API, что упрощает перенос существующих приложений. Предварительно скомпилированные модели, доступные через Hugging Face Hub, поддерживают контекст до 32K токенов, что важно для сложных задач анализа и генерации.

FuriosaAI начала поставки ИИ-ускорителя RNGD для дата-центров

Новый игрок на рынке ИИ-ускорителей

Производительность для LLM и агентного ИИ

Два форм-фактора для внедрения в инфраструктуру

Программная экосистема и поддержка моделей

Полезные ссылки