
端側部署可驗證強化學習與推理模型演進 — 2026/03/04
概述最新研究(ExGRPO、RLP、RACE Attention 等)與產業動態(Qwen3.5、LPU、MTC、Runtime Infrastructure)。

概述最新研究(ExGRPO、RLP、RACE Attention 等)與產業動態(Qwen3.5、LPU、MTC、Runtime Infrastructure)。

涵蓋硬體(推理 ASIC、CPO 交換器)、模型基準與代理安全等趨勢與觀察。

重點涵蓋 LLM 在量詞上遞性偏好、ICL 的資訊移除視角、noise-curvature 與字元級攻擊等研究與產業事件。