Skip to content

模型自部署

模型自部署允许您将平台预置的主流大模型以独占实例的方式部署到指定区域,获得专属推理服务。相比共享 API,自部署实例提供可预期的并发能力和更稳定的响应延迟,适合对吞吐量、延迟或数据隔离有要求的生产场景。

功能特性

  • 多模型支持:提供 DeepSeek、Qwen、Llama、GLM、百度文心等主流模型,覆盖深度思考、文本生成、图像生成、视频生成、语音生成、3D 生成、视觉理解等多种能力类型。
  • 弹性副本配置:支持设置最大副本数量,平台按需自动扩缩,每增加一个副本对应提升最大并发数量。
  • 灵活的资源规格:可按需配置 CPU 核数、内存大小及 TPU 数量,满足不同模型的推理资源需求。
  • 多区域部署:支持选择不同部署区域,满足数据本地化或就近接入需求。
  • OpenAI 兼容接口:自部署实例提供与 OpenAI 兼容的 API 接口(/v1/chat/completions),可直接替换现有集成,无需修改业务代码。
  • 一键获取 API 凭证:部署成功后可在管理页面直接查看 Base URL、Model ID 和 API Key,并提供 CURL、Python、JavaScript 示例代码。

产品计费

模型自部署按实际配置的资源规格计费,费用在创建部署时实时展示(配置费用 ¥XX /小时)。计费从实例创建成功后开始,释放实例后停止计费。可参考算力市场获取最新定价。

使用模型自部署

创建自部署

进入控制台 模型自部署 页面,页面展示当前可用的全部模型。

筛选与搜索

  • 通过顶部 模型类别 标签筛选模型类型,支持多选;选中后点击标签上的 ✕ 可单独取消,点击清除图标可重置全部筛选。
  • 通过 模型提供方 标签筛选模型提供商。
  • 在搜索框中输入模型名称进行精确查找。

发起部署

  1. 在模型卡片上点击 部署模型,弹出部署配置对话框。

  2. 填写以下配置项:

    字段说明
    名称项目名称,最多 32 个字符,必填
    模型名称自动填充,不可修改
    选择区域选择部署区域,必填
    最大副本数量最大副本数,决定最大并发能力,取值范围见括号提示
    并发上限单副本最大并发请求数,由模型规格决定,只读
    CPU 核数CPU 核数,取值范围见括号提示
    内存 (GB)内存大小,取值范围见括号提示
    TPU 数量TPU 数量,取值范围见括号提示
  3. 对话框底部实时展示配置费用,确认无误后点击 一键部署 完成创建。

若提示"当前资源不足,请调整配置和区域后重试,或等待资源释放",可尝试切换区域或降低副本/资源配置后重试。


管理自部署实例

进入控制台 自部署管理 页面,以卡片列表形式展示所有自部署记录。

实例状态

状态含义
创建中实例正在创建中
部署中正在部署中
部署成功部署成功,可正常调用
部署失败部署失败
删除中实例正在释放中

卡片信息

每张卡片展示:项目名称、创建时间、项目 ID、模型名称与 ID、当前 Worker 数、并发上限、区域及每小时配置费用。


获取 API 凭证

实例状态为 部署成功 后,点击卡片右侧 获取 API 按钮,右侧抽屉展示以下信息:

字段说明
Base URLAPI 请求的基础地址
API Endpoints固定为 /v1/chat/completions
Model ID调用时传入的模型标识符
API Key鉴权密钥

所有字段均可点击复制图标快速复制。抽屉底部提供 CURLPythonJavaScript 三种语言的示例代码,可直接复制使用。


释放实例

如不再需要某个部署,点击卡片右侧 释放 链接,在确认对话框中点击 确定 完成释放。

注意:释放实例后不可恢复内容,请确认已保存所需配置信息后再操作。