В национальных интересах

Инвесторам и акционерам

«Турбо Облако» представляет платформу инференса ИИ-моделей с поминутной тарификацией и автоматическим масштабированием

Версия для печати

Российский облачный провайдер «Турбо Облако», входящий в коммерческий ИТ-кластер «Ростелекома», запустил Inference Platform [1] — платформу для развертывания и эксплуатации моделей искусственного интеллекта. В настоящее время новый продукт доступен для тестирования: компании могут оценить его возможности на собственных моделях.

Современные ИИ-проекты требуют не только доступа к вычислительным мощностям, но и значительных усилий по развертыванию и поддержке инфраструктуры. На практике это увеличивает нагрузку на команды и замедляет внедрение этих проектов. Новый продукт «Турбо Облака» закрывает эти задачи, предоставляя готовый сервис для работы с ИИ-моделями.

Inference Platform поддерживает различные типы моделей, включая open source[2] решения, широко используемые на российском рынке. Пользователи могут загружать собственные модели или использовать контейнерные образы, разворачивая их в облачной среде без дополнительных инфраструктурных настроек.

Сервис обеспечивает автоматическое масштабирование ресурсов (автоскейлинг) в зависимости от нагрузки: при росте количества запросов к модели ресурсы увеличиваются, при снижении — сокращаются вплоть до полной остановки вычислений. Такой подход позволяет оптимизировать использование графических процессоров (GPU) и снизить затраты при нерегулярной нагрузке. Дополнительным преимуществом является поминутная тарификация ресурсов, гарантирующая более точный контроль расходов по сравнению с почасовой оплатой.

Особое внимание уделено работе с ресурсоемкими задачами. Платформа поддерживает распределенный инференс, позволяя запускать модели объемом до одного триллиона параметров с размещением на нескольких вычислительных узлах. Для взаимодействия между узлами используется высокоскоростная сеть (InfiniBand) с минимальной задержкой, позволяющая объединять большое количество серверов и графических ускорителей для дообучения крупных моделей. Также доступно гибкое использование GPU-ресурсов, включая их дробление под задачи меньшего объема.

В основе Inference Platform — графические ускорители NVIDIA H200 SXM, обеспечивающие высокую производительность и необходимый объем видеопамяти для работы с ИИ-нагрузками.

Платформа объединяет работу с моделями разного масштаба — от компактных до ресурсоемких — в единой среде управления. В результате пользователь получает готовый сервис с доступом по URL, который можно интегрировать в существующие бизнес-приложения без изменения архитектуры.

Дмитрий Подшибякин, директор по продуктам компании «Турбо Облако»:
«Спрос на использование ИИ-моделей в бизнесе растет, но для многих компаний основным барьером остается не только развертывание, сопровождение и масштабирование инфраструктуры, но и высокая стоимость вычислительного оборудования. Наш новый сервис Inference Platform снимает эту нагрузку и позволяет сосредоточиться на прикладных задачах. Мы даем возможность работать с моделями как с сервисом — быстро запускать, масштабировать и интегрировать их в бизнес-процессы без построения собственной инфраструктуры».

***

«Турбо Облако» — облачный провайдер полного цикла входит в ГК РТК-ЦОД и создан для бизнеса, которому нужна максимальная скорость работы. Компания предлагает более 50 готовых сервисов: от масштабируемой виртуальной инфраструктуры и высокопроизводительных GPU-мощностей для различных ИИ-моделей до надежных решений по хранению и обработке данных.

Ресурсы «Турбо Облака» развернуты на сети из более 20 геораспределенных площадок в пяти федеральных округах на базе дата-центров РТК-ЦОД, что гарантирует уровень надежности Tier III. Суммарная мощность облака — более 500 000 виртуальных процессоров для решения бизнес-задач клиентов.



[1] Решение для развертывания и обслуживания обученных моделей машинного обучения (ML), искусственного интеллекта (AI) и систем компьютерного зрения (CV) в продуктивной среде.

[2] Модель разработки программного обеспечения, при которой исходный код доступен для просмотра, изменения и распространения всем желающим.