
情境工程導向把模型放進任務世界 — 2025/12/02
由模型本體走向模型-環境-任務的系統設計,強調測試、治理與高壓行為評估。

由模型本體走向模型-環境-任務的系統設計,強調測試、治理與高壓行為評估。

涵蓋作者觀點、精神健康風險、Mobile GUI 代理與 OCR 小模型進展。

重點:Starcloud-1 搭載 NVIDIA H100 入軌、Google TPU 衛星計畫;大型語言模型隱性偏見與個資揭露法案等產業風險。

DeepSeekMath‑V2 宣稱開源 IMO 金牌級;attention gating 獲 NeurIPS 最佳;GRPO‑only 挑戰 SFT,並關注多模態產品化與治理風險。

重點涵蓋 LLM 在量詞上遞性偏好、ICL 的資訊移除視角、noise-curvature 與字元級攻擊等研究與產業事件。

要點:平台化效能與評估、代理治理成基礎、社會風險同步擴大

聚焦自適應防護、端雲協同與企業在安全、合規與成本間的取捨。

聚焦 LLM-as-a-Judge 技術譜系、Opus 4.5 上線、Qwen 公測與雲端基建擴張。

討論AI責任保險排除、27M模型、PhysX-Anything、具身智能與治理前瞻。

聚焦自治系統、雲—邊能源與資料治理的工程挑戰與機會。