成果数据
项目成果
0+
纳管模型
覆盖 LLM、CV、NLP 等全栈 AI 能力
0%
算力利用率
通过动态削峰填谷,算力利用率显著提升
0.9%
SLA
企业级高可用架构,确保核心业务连续运行
全面
统管统建
打破 AI 烟囱,实现集团一本账
核心技术特色
技术亮点
算力异构池化
打破芯片壁垒,实现国产化信创算力与通用算力的混合调度
模型服务网格
基于 Istio 的微服务治理,流量精细化控制,故障秒级自愈
AI 安全网关
内置 Prompt 注入防御与数据脱敏,构建 AI 时代的安全防火墙
动态评估准入
用数据说话,自动评测模型效果,帮助业务选用合适的模型
项目概述
客户背景
该省级 AI 算力调度中心负责协调区域内多方算力资源,支撑政务、科研及民生领域的 AI 应用。随着信创要求的提升,中心内部形成了通用算力与国产信创算力混用的复杂局面。原有的烟囱式架构导致算力无法池化、模型无法跨芯片迁移,急需一套能屏蔽硬件差异的算力操作系统。
使用技术栈
KubernetesIstiovGPUPrometheusOpenTelemetry
转型对比
从挑战到解决方案
以前
现在
对比转型
1算力孤岛严重:异构芯片(GPU/NPU)无法统一调度,导致部分昂贵算力资源闲置,而核心任务排队严重
研发异构算力虚拟化引擎,屏蔽芯片底层差异,实现信创算力与通用算力的统一纳管与池化分配
1算力孤岛严重:异构芯片(GPU/NPU)无法统一调度,导致部分昂贵算力资源闲置,而核心任务排队严重
研发异构算力虚拟化引擎,屏蔽芯片底层差异,实现信创算力与通用算力的统一纳管与池化分配
2国产化适配难:各厂商底层驱动与框架互不兼容,模型在不同芯片间的迁移成本极高
构建模型服务网格(Model Mesh),提供基于流量特征的智能路由,支持国产化芯片的平滑迁移与备份
2国产化适配难:各厂商底层驱动与框架互不兼容,模型在不同芯片间的迁移成本极高
构建模型服务网格(Model Mesh),提供基于流量特征的智能路由,支持国产化芯片的平滑迁移与备份
3服务治理缺失:缺乏统一的流量调度与熔断限流机制,模型服务在突发流量下稳定性差
建立AI 应用安全网关,集成全链路监控与内容风控插件,为上层应用提供标准化的安全推理接口
3服务治理缺失:缺乏统一的流量调度与熔断限流机制,模型服务在突发流量下稳定性差
建立AI 应用安全网关,集成全链路监控与内容风控插件,为上层应用提供标准化的安全推理接口
4安全准入模糊:海量模型接入缺乏统一的安全审查与合规风控,存在潜在的数据与内容风险
打造自动化评测流水线,基于标准测试集对接入模型进行动态性能评测,实现算力资源的精准配置
4安全准入模糊:海量模型接入缺乏统一的安全审查与合规风控,存在潜在的数据与内容风险
打造自动化评测流水线,基于标准测试集对接入模型进行动态性能评测,实现算力资源的精准配置
技术架构
系统架构设计
第1层
算力异构层
屏蔽底层芯片差异(通用/国产信创芯片),实现算力池化与统一调度
异构纳管算力池化动态伸缩显存虚拟化
第2层
模型服务网格
基于 Service Mesh 的模型流量治理,支持 A/B 测试、灰度发布与熔断降级
流量路由熔断降级灰度发布多模态编排
第3层
AI 应用网关
企业级统一 API 接入,提供鉴权、流控、计费及全链路可观测性
统一API安全鉴权全链路监控计费中心
异构算力调度→模型服务网格→全链路观测→资源配额控制
实施路径
分阶段稳步推进
1
第一阶段
基础设施池化
完成全中心 GPU/NPU 资源的统一接入与虚拟化,建立异构算力调度底座
2
第二阶段
服务治理上线
部署 Model Mesh,接管全中心模型流量,实现多租户隔离与动态限流
3
第三阶段
应用生态开放
上线 AI 应用网关与开发者中心,支持全省委办局业务系统的一站式 AI 能力调用
第一阶段
基础设施池化
完成全中心 GPU/NPU 资源的统一接入与虚拟化,建立异构算力调度底座
1
2
第二阶段
服务治理上线
部署 Model Mesh,接管全中心模型流量,实现多租户隔离与动态限流
第三阶段
应用生态开放
上线 AI 应用网关与开发者中心,支持全省委办局业务系统的一站式 AI 能力调用
3
真实反馈
客户评价
“这个平台解决了我们“有算力、难调度”的燃眉之急。它不仅帮我们屏蔽了不同芯片的适配难题,还让算力利用率提升了近一倍,真正实现了区域算力的集约化管理。”
常见问题
常见问题解答
平台如何解决国产算力适配难的问题?
模型服务网格(Model Mesh)相比传统网关有什么优势?
平台支持公有云大模型接入吗?