周二晚上 8 点 18,手机上给 Codex 发了句"继续",
就去睡了。凌晨 1 点 37,token 耗尽,任务完成。
Pangu 92B 减层,让模型在单机上跑起来
Pangu 92B,8层剪层
layer 0-1 Dense,layer 2-7 MoE
昇腾 910C,2 die/卡,8 卡 = 16 die
Rollout: TP=8, DP=2, EP=16
Actor: TP=4, PP=4
15 个文件,全链路改造
然后就去睡了。
改 bug → 验证 → 读日志 → 再改 bug
SSH 隧道 + 长程运行
手机向内网开发机发指令
改 bug → 验证 → 读日志
→ 发现问题 → 再改,20 次循环
只说了一句"继续"
AI 自动理解任务目标
MTP 禁用后,Megatron 用 final_layernorm,
映射表只有 final_layernorms.0。
Codex 加了一行判断自动替换。
添加 fp16: true,初始化 grad_scale_func,
注释掉不兼容的 precision_aware_optimizer。
余量从 2048 改为 16384,
避免 prompt+response 超限。
| 它看到的 | 它怎么修的 |
|---|---|
| final_layernorms.0 映射报错 | MTP 禁用时自动替换 |
| FP16 训练 loss 异常 | 初始化 grad_scale_func |
| Prompt length exceeds | 余量 2048 → 16384 |
| speculative_config 报错 | 加 is_mtp_enabled 检查 |
| No valid rounds | 过滤 None 轮次 |
| Reward 按字符拆分 | 改 JSON 解析 |
| trajectory 不支持多轮 | 重构 + 180s 超时 |
| Ray worker 内网走代理 | 清理 proxy 环境变量 |
| optimizer 不兼容 FP16 | 注释掉相关参数 |
| n_parallel_agents=256 | 改成 1 |
DP0/DP1 正常启动
dispatch_task_list completed
真实 pytest 参数,不再按字符拆分
train after update actor
核心链路,全通。
给 AI 布了个任务,然后去睡觉。
第二天起来,15 个文件改好了,核心链路全通。
孙博阳 · 基础大模型部·系统工程实验室 · 2026.06
Powered by OpenAI Codex