端側部署可驗證強化學習與推理模型演進 — 2026/03/04概述最新研究(ExGRPO、RLP、RACE Attention 等)與產業動態(Qwen3.5、LPU、MTC、Runtime Infrastructure)。