• 下一代 AI 基础设施
  • HAT智算云-面向大模型训练与推理的算力云平台

    源自“HAT”三大核心优势:
    H:High-Performance,高性能算力。
    A:Accelerated-Inferencing,加速推理服务。
    T:Tailored for Production,面向生产环境优化。
    我们提供高性能裸金属与容器化GPU算力租赁,结合自研IRIS推理优化框架,助力大模型训练、推理与多任务调度,帮助AI业务以更低成本、更高效率快速落地。

    IRIS 推理加速服务:为大模型推理而生

    IRIS 是腾云智算自研的推理加速服务套件,围绕真实生产环境,对模型推理链路进行深度优化,在保证精度的前提下,显著提升吞吐与算力利用率。
    IRIS Lite
    Basic
    面向中低 QPS 场景的高效推理方案
    • 面向中低 QPS 场景的高效推理方案
    • 基于自研 TY-vLLM 推理框架
    • 深度重构 vLLM 推理路径
    • 推理性能提升 10%+
    IRIS Pro
    All Access
    面向大规模、高并发场景的定制化推理加速
    • 面向大规模、高并发场景的定制化推理加速
    • 支持投机推理与并行调度
    • 针对业务负载进行深度优化
    • 推理加速最高可达 80%+

    行业突破与开源认可

    全球首家适配 Eagle3 × Qwen3 的推理加速方案:推理吞吐提升280% 推理成本下降高达 60%
    双认证合并
    核心代码已被 SGLang 与 EAGLE-3 两大开源项目正式合并,获得官方“双认证”。
    进入官方版本
    成果已进入官方版本发布,具备工程可用性与可持续维护。
    验证与下载
    GitHub 下载量约 4000 次,多场景推理与算力加速实践已验证可用性。

    Tengyunw/qwen3_8b_eagle3

    NaN NaN

    Tengyunw/GLM-4.7-NVFP4

    NaN NaN

    全栈优化,为AI而生

    High-Performance
    极致性能
    裸金属算力结合底层 RDMA 通信优化,以零虚拟化损耗释放 100% 物理性能。
    High-Performance
    Accelerated-Inferencing
    推理加速
    自研IRIS推理优化框架,配合弹性调度实现高吞吐、低延迟的生产级响应。
    Tailored for Production
    面向生产
    全自动化的模型微调、评测、部署工作流,将繁琐的开发和运维工作转化为一键直达的生产力。
    Tailored for Production

    解决方案

    针对特定业务场景的深度优化方案

    产品矩阵

    POST-TRAINING
    模型后训练
    一键式 SFT/DPO 任务
    自动化微调流,一键提交,系统自动完成资源全闭环调度。
    自研 QAT 量化压缩
    领先的量化感知训练技术,保持精度同时显著提升推理效率。
    MODEL SERVING
    模型部署
    自动化弹性部署
    兼容开源与自研模型,支持分钟级镜像封装与上线部署。
    生产级 AI-Ops 运维
    自动弹性扩缩与 360° 可观测监控,确保产线 99% 高可用。
    BARE METAL
    裸金属实例
    物理级资源独占
    提供 NVIDIA 原生 8 卡集群,物理级安全隔离与全量资源独占。
    100% 算力无损输出
    彻底消除虚拟化损耗,释放极致潜能。
    CONTAINER
    容器实例
    开箱即用,极简接入
    预集成Pytorch/TensorFlow深度学习框架,支持 SSH 与 Jupyter 深度联动。
    精细计费,按需调配
    支持“整机+切卡”租赁,按需/包周期计费模式,成本降低 50% 以上。
    让算力真正成为可用、可控、可持续的能力

    让算力真正成为可用、可控、可持续的能力

    无论是模型训练、在线推理,还是多任务混部与规模化运行,
    腾云智算 AI 算力云平台,帮助企业把算力从“资源问题”变成“工程能力”。