中国移动发布MoMA平台,接入超300款大模型

722 词

中国移动以运营商身份切入大模型聚合赛道,用统一网关和Token集约化运营把政企客户的模型采购流程标准化,主战场不是开发者而是政企采购。
china-mobile-moma-platform-300-models

平台定位:政企模型采购的”中间层”

2026年5月8日,中国移动在苏州举行的移动云大会主论坛上发布移动模型服务平台 MoMA(Mobile Model Service Platform)。平台接入超300款AI大模型,包括中国移动自研的”九天”基座大模型,以及 DeepSeek、通义千问、豆包、Kimi、GLM 等第三方模型。

统一 API 网关是核心入口——企业一次接入即可调用平台全部模型资源,无需与各模型厂商单独签约。这是 MoMA 对政企客户的核心卖点:把多头采购变成单一结算。

技术架构:国产算力 + 自研推理引擎

MoMA 基于华为昇腾、寒武纪、海光等国产芯片部署,中国移动在此基础上自研了推理引擎。技术路径包括:

  • 算存分离:将计算密集和访存密集阶段拆分处理
  • KV Cache 共享:跨请求复用缓存数据
  • 上下文压缩:减少冗余输入开销

路由引擎提供三种策略:成本优先效果优先均衡优先,按策略自动匹配最优模型。单个模型出现故障、限流或延迟飙升时,平台执行秒级切换。

官方给出的性能数据:吞吐量提升 20%,时延降低 40%,单位 Token 成本压降约 30%,资源占用率降低 50% 以上。日流量已突破 1 亿。

Token 集约化运营:三档服务模式

MoMA 首创”Token 集约化运营模式”,将多厂商模型整合为统一计费层。服务分为三档:

  • 基础档:标准推理服务
  • 高级档:优先调度高性能模型
  • 安全档:硬件隔离容器内执行,覆盖芯片到应用的全链路机密计算,满足政务、金融等场景”可用不可见”要求

计费采用流式实时计量,端到端处理不超过 1 分钟,即用即付。所有消费路由到一张统一账单。