下一代 AI 基础设施

HAT智算云-面向大模型训练与推理的算力云平台

源自“HAT”三大核心优势：
H：High-Performance，高性能算力。
A：Accelerated-Inferencing，加速推理服务。
T：Tailored for Production，面向生产环境优化。
我们提供高性能裸金属与容器化GPU算力租赁，结合自研IRIS推理优化框架，助力大模型训练、推理与多任务调度，帮助AI业务以更低成本、更高效率快速落地。

立即体验免费推理优化咨询

IRIS 推理加速服务：为大模型推理而生

IRIS 是腾云智算自研的推理加速服务套件，围绕真实生产环境，对模型推理链路进行深度优化，在保证精度的前提下，显著提升吞吐与算力利用率。

IRIS Lite

Basic

面向中低 QPS 场景的高效推理方案

面向中低 QPS 场景的高效推理方案
基于自研 TY-vLLM 推理框架
深度重构 vLLM 推理路径
推理性能提升 10%+

IRIS Pro

All Access

面向大规模、高并发场景的定制化推理加速

面向大规模、高并发场景的定制化推理加速
支持投机推理与并行调度
针对业务负载进行深度优化
推理加速最高可达 80%+

行业突破与开源认可

全球首家适配 Eagle3 × Qwen3 的推理加速方案：推理吞吐提升280% 推理成本下降高达 60%

双认证合并

核心代码已被 SGLang 与 EAGLE-3 两大开源项目正式合并，获得官方“双认证”。

进入官方版本

成果已进入官方版本发布，具备工程可用性与可持续维护。

验证与下载

GitHub 下载量约 4000 次，多场景推理与算力加速实践已验证可用性。

Tengyunw/qwen3_8b_eagle3

NaN NaN

Tengyunw/GLM-4.7-NVFP4

NaN NaN

全栈优化，为AI而生

High-Performance

极致性能

裸金属算力结合底层 RDMA 通信优化，以零虚拟化损耗释放 100% 物理性能。

High-Performance

Accelerated-Inferencing

推理加速

自研IRIS推理优化框架，配合弹性调度实现高吞吐、低延迟的生产级响应。

Tailored for Production

面向生产

全自动化的模型微调、评测、部署工作流，将繁琐的开发和运维工作转化为一键直达的生产力。

Tailored for Production

解决方案

针对特定业务场景的深度优化方案

Academic Research

50%

相比整机成本降低

高校科研与实验室

极简环境管理，精细化预算控制，让科研更专注

开箱即用

预置 Pytorch/TensorFlow 镜像，支持 SSH 与 Jupyter 接入，直达开发状态。

子账号限额管理

支持子账号配额管理与资源隔离，导师可轻松掌控每位成员的资源使用。

极致经济性

分卡分时计费，随用随走，相比整机租赁成本降低 50%。

立即体验方案咨询

NVFP4 Inference

2.4x Speed

99%

SLA 可靠性承诺

大模型全生命周期

性能极致压榨，生产级高可靠部署，为 AI 产线保驾护航。

极简微调流水线

支持 SFT/DPO 一键微调，系统自动完成从资源调度到回收的全过程。

前沿加速黑科技

全球首发 QAT NVFP4 量化技术，配合 Eagle 3 投机采样推理，实现推理性能翻倍。

工业级 MLOps

一键部署弹性推理服务，360° 运维观测，99% SLA 可靠性承诺。

Encoding

25%

生成耗时缩短

30ms

实时响应

数字人与 AIGC

多模态推理加速，极速生成体验

极致视频加速

深度调用 NVIDIA 硬件编解码引擎，视频编解码效率提升10倍

生图/生视频深度优化

针对生图与视频生成算法深度优化，高清视频生成耗时缩短25%

低延迟响应

依托高性能 GPU 集群，显著降低延迟，提升吞吐量。

产品矩阵

POST-TRAINING

模型后训练

一键式 SFT/DPO 任务

自动化微调流，一键提交，系统自动完成资源全闭环调度。

自研 QAT 量化压缩

领先的量化感知训练技术，保持精度同时显著提升推理效率。

MODEL SERVING

模型部署

自动化弹性部署

兼容开源与自研模型，支持分钟级镜像封装与上线部署。

生产级 AI-Ops 运维

自动弹性扩缩与 360° 可观测监控，确保产线 99% 高可用。

BARE METAL

裸金属实例

物理级资源独占

提供 NVIDIA 原生 8 卡集群，物理级安全隔离与全量资源独占。

100% 算力无损输出

彻底消除虚拟化损耗，释放极致潜能。

CONTAINER

容器实例

开箱即用，极简接入

预集成Pytorch/TensorFlow深度学习框架，支持 SSH 与 Jupyter 深度联动。

精细计费，按需调配

支持“整机+切卡”租赁，按需/包周期计费模式，成本降低 50% 以上。

让算力真正成为可用、可控、可持续的能力

让算力真正成为可用、可控、可持续的能力

无论是模型训练、在线推理，还是多任务混部与规模化运行，
腾云智算 AI 算力云平台，帮助企业把算力从“资源问题”变成“工程能力”。