Южнокорейский стартап FuriosaAI начал отгрузки своего первого ИИ-чипа RNGD (Renegade) — энергоэффективного ускорителя инференса для LLM и агентных AI-систем, доступного в виде PCIe-карты и готового серверного решения.
Новый игрок на рынке ИИ-ускорителей
Компания FuriosaAI официально запустила поставки своего первого специализированного ИИ-процессора RNGD (Renegade). Первая партия из 4 000 чипов уже получена от производственных партнёров TSMC и ASUS. Решение ориентировано на корпоративные дата-центры, которым требуется высокая производительность инференса без резкого роста энергопотребления и инфраструктурных затрат.
По словам генерального директора FuriosaAI Джун Пайк, индустрии необходима альтернатива существующим ускорителям, способная работать в стандартных серверных стойках без перехода на сложные системы жидкостного охлаждения.
Производительность для LLM и агентного ИИ
RNGD позиционируется как ускоритель инференса для крупных языковых моделей, генеративного ИИ и агентных систем. Чип обеспечивает производительность до 512 TFLOPS (INT8), сочетая вычислительную плотность и энергоэффективность.
Компания заявляет, что решения на базе RNGD обеспечивают до 3,5 раз большую вычислительную плотность на стойку по сравнению с системами на базе NVIDIA H100 при работе в стандартных условиях охлаждения.
FuriosaAI уже продемонстрировала запуск моделей, включая GPT-OSS от OpenAI, оптимизированный для работы на двух RNGD-картах, а также получила внедрение своей архитектуры в проектах LG AI Research (EXAONE).
Два форм-фактора для внедрения в инфраструктуру
RNGD предлагается в двух вариантах поставки.
PCIe-карта RNGD предназначена для установки в существующие серверы и имеет тепловой пакет всего 180 Вт, что делает её совместимой с традиционными системами воздушного охлаждения.
Второй вариант — сервер NXT RNGD формата 4U, содержащий восемь ускорителей RNGD. Потребление всей системы составляет около 3 кВт, благодаря чему в стандартной стойке можно разместить до пяти таких серверов. Это даёт суммарную производительность до 20 петафлопс (INT8) на стойку.
Программная экосистема и поддержка моделей
Важной частью платформы является SDK Furiosa, включающий инструменты оптимизации, такие как межчиповый тензорный параллелизм. Поддерживаются популярные модели, включая Qwen 2 и Qwen 2.5.
SDK обеспечивает совместимость с torch.compile, предлагает замену для vLLM, а также поддерживает OpenAI API, что упрощает перенос существующих приложений. Предварительно скомпилированные модели, доступные через Hugging Face Hub, поддерживают контекст до 32K токенов, что важно для сложных задач анализа и генерации.