HUAWEI · PANGU 92B · 昇腾 910C

睡了一觉
训练跑通了

周二晚上 8 点 18,手机上给 Codex 发了句"继续",
就去睡了。凌晨 1 点 37,token 耗尽,任务完成。

20:18 → 01:37 · AI 自主运行 5h19m · 15 个文件

01 / RESULT

结果:
核心链路
全通

# 核心验证链路
vLLM 启动 → completion → task 分发
→ trajectory → reward
→ 训练数据 → actor 更新

✓ 全部通过

5h19m

AI 自主运行

拉起训练次数

改动文件数

人工干预

大集群 → 单机

Pangu 92B 减层,让模型在单机上跑起来

02 / BACKGROUND

任务背景

🧠

模型

Pangu 92B,8层剪层
layer 0-1 Dense,layer 2-7 MoE

💻

硬件

昇腾 910C,2 die/卡,8 卡 = 16 die

⚙️

并行

Rollout: TP=8, DP=2, EP=16
Actor: TP=4, PP=4

📁

改动

15 个文件,全链路改造

03 / TIMELINE

发生了什么

从任务下达到 token 耗尽,
真实时间线。

6/9 周一 11:30

领导布置任务

Pangu 92B 减层,16die 黑盒 E2E

6/9 周一下午

Codex 辅助改动

建立上下文,部分文件已修改

6/10 周二下午

终端断开,任务停滞

开发环境切换

6/10 20:18

手机发了句"继续"

然后就去睡觉了

6/11 01:37

Token 耗尽,任务完成

AI 自主运行 5h19m

手机上说了句"继续"

然后就去睡了。

自主循环

改 bug → 验证 → 读日志 → 再改 bug

04 / WHAT IS CODEX

什么是 Codex

📱

手机远程调度

SSH 隧道 + 长程运行
手机向内网开发机发指令

🔄

自主迭代

改 bug → 验证 → 读日志
→ 发现问题 → 再改,20 次循环

🧠

上下文延续

只说了一句"继续"
AI 自动理解任务目标

05 / CHALLENGES

配置迁移难点

不是算法问题,
全是配置通路问题。

🔗

mbridge 命名

单数 vs 复数,映射不匹配

🔢

FP16 精度

loss scale 未初始化

📏

Token 超限

余量 2048 不够

🌐

代理干扰

Ray worker 内网走代理

🧩

Reward 格式

按字符拆分,需 JSON 解析

❌

Trajectory

不处理 None 轮次

06 / CORE FIXES

核心改动

三个最关键的问题,
不修就跑不起来。

P0

mbridge 映射兼容

MTP 禁用后,Megatron 用 final_layernorm,
映射表只有 final_layernorms.0。
Codex 加了一行判断自动替换。

P0

FP16 精度配置

添加 fp16: true,初始化 grad_scale_func,
注释掉不兼容的 precision_aware_optimizer。

P0

Token 长度余量

余量从 2048 改为 16384,
避免 prompt+response 超限。

07 / ALL FIXES

全部改动

20 次迭代,15 个文件。

它看到的	它怎么修的
final_layernorms.0 映射报错	MTP 禁用时自动替换
FP16 训练 loss 异常	初始化 grad_scale_func
Prompt length exceeds	余量 2048 → 16384
speculative_config 报错	加 is_mtp_enabled 检查
No valid rounds	过滤 None 轮次
Reward 按字符拆分	改 JSON 解析
trajectory 不支持多轮	重构 + 180s 超时
Ray worker 内网走代理	清理 proxy 环境变量
optimizer 不兼容 FP16	注释掉相关参数
n_parallel_agents=256	改成 1

08 / VALIDATION

验证结果

✅

vLLM 启动

DP0/DP1 正常启动

✅

Task 分发

dispatch_task_list completed

✅

Reward 执行

真实 pytest 参数,不再按字符拆分

✅

Actor 更新

train after update actor

第二天打开电脑

核心链路,全通。

09 / COMPARE

效率对比

❌ 传统方式

耗时2-3 小时

人工全程投入

验证改 1 个跑 1 轮

时间受限工时

✅ Codex 自主调试

耗时5h19m

人工1-2 小时

验证自动迭代 20 次

时间睡觉时在跑

真正价值不是"快",是异步--睡觉时 AI 在跑。

10 / VALUE

推广价值

1-2h

单次节省 / 人

10-20h

团队 10 人月节省

120-240h

年化节省工时

最适合的场景

⭐⭐⭐⭐⭐

多节点并行迁移

本次已验证

⭐⭐⭐⭐⭐

配置迁移 / 适配

环境变量、参数调整

⭐⭐⭐⭐

日志分析 + 修复

读日志→定位→修复闭环

⭐⭐⭐

大规模代码重构

多文件协同改动

"睡了一觉,
训练跑通了。"

给 AI 布了个任务,然后去睡觉。
第二天起来,15 个文件改好了,核心链路全通。

基于真实复盘 · Pangu 92B · 16die · 昇腾 910C

孙博阳 · 基础大模型部·系统工程实验室 · 2026.06

睡了一觉训练跑通了