高效推理與代理生態轉型及基建衝突 — 2026/02/26

今日焦點（Top Headlines）

高效推理：資料、獎勵與優化策略

核心摘要
近期大量工作聚焦於讓 LLM「推得對、也推得快」：一方面擴大 Chain-of-Thought（CoT）與多路徑搜尋提升推理表現，另一方面以獎勵塑造與強化學習誘導更短、更準確的思考軌跡，同時在長上下文、檢索增強、多模態與硬體層面提出系統性優化方案，並開始構想專用 Reasoning Processing Unit（RPU）以突破 GPU 的記憶頻寬瓶頸。

技術細節

推理路徑與獎勵設計
- 擴大型 CoT 雖能顯著提升邏輯與數學推理，但計算成本與延遲急遽上升。多篇工作改用 reward shaping + RL，在訓練階段鼓勵「短而正確」的推理路徑，避免一味拉長 CoT。
- Diligent Learner 將 test-time search 的「步驟成功率」γ 顯式建模，並用 GF(2) 電路重建作為外分佈高難度任務，量化模型在搜尋導向推理上的能力。
多路徑與神經符號推理
- LogicGraph 等神經符號框架針對多解構問題，生成多條推理路徑並以符號驗證過濾，從「單一收斂答案」轉向「多路徑正確性」評估。
- 在數學解題上，提出自動與互動式解答驗證管線，替代傳統單一最終答案打分。
結構化檢索增強推理（GraphRAG 系列）
- GraphRAG、HELP（HyperNode Expansion & Logical Path-Guided Evidence Localization）、Structured Relevance Graph 等方法，以圖結構顯式建模文件與實體關係，支持多跳推理與證據路徑定位，同時減少幻覺。
- HyperNode 擴展與路徑導引使檢索不再僅是相似度最近鄰，而是沿著潛在邏輯路徑選取證據。
長上下文與 KV cache 優化（CHESS）
- CHESS（Context-aware Hierarchical Efficient Semantic Selection）在解碼階段做「步驟感知」與「語意感知」token 選取，針對與當前推理步驟無關的 KV cache 進行裁剪，以降低記憶存取開銷與延遲。
- 指出傳統基於位置或粗糙重要度的 prompt pruning 無法處理推理步驟依賴，易破壞思考鏈。
測試時計算與對齊（PromptCD 等）
- PromptCD（Polarity-Prompt Contrastive Decoding）在推理時計算對比解碼，利用極性提示抑制不對齊或有害輸出，作為「不改權重」的 alignment 手段。
- 一系列工作將對比解碼、test-time search 視為行為調節新維度，與訓練階段 SFT / RLFT 互補。
多模態與具身推理
- 視覺語言模型（LVLM）的「因果性診斷圖」揭示現有 benchmark 容易被相關性線索誤導，需要專門設計的因果診斷任務。
- 具身方向上，以 LLM 驅動模擬與行動，用於科學發現與數值模擬異常檢測（如數值不穩定），將語言推理與運行時感知結合。
時序推理與專用硬體
- KairosVL 探索「語義條件時間序列推理」，將自然語言條件與時間序列結合，用於決策支援。
- 多篇工作強調 LLM 推理已從「算力受限」轉向「記憶頻寬受限（memory wall）」工作負載，提出專用 Reasoning Processing Unit（RPU）構想，以對症優化記憶訪問與推理模式。

應用場景

高可靠度數學與邏輯推理（含多步驗證、互動解題教學）。
大型企業與科學知識庫上，透過 GraphRAG 進行多跳問答與事實核查。
長文檔閱讀與長會話系統，藉 CHESS 類方法降低延遲並保持推理品質。
科學計算、工業模擬中的異常檢測與推理輔助。
金融與工業 IoT 中的語義條件時間序列決策。

關鍵實體：Chain-of-Thought、GraphRAG、LogicGraph、CHESS、PromptCD、Diligent Learner、KairosVL、RPU
重要性：★★★★★
來源： arXiv:2602.20945 | arXiv:2602.21044 | arXiv:2602.20494

Actor-Curator：Policy‑Improvement Bandits 共適應課程學習

核心摘要
RL 後訓練（RLFT / RLVR）快速成為對齊與強化 LLM/MLLM 的主流路徑，同時暴露出熵崩潰、經驗浪費、策略陳舊與訓練不穩定等問題。新一輪工作圍繞 Actor‑Curator 課程學習、離策略 Batch Adaptation（BAPO）、變分序列級軟策略最適化（VESPO）、可控探索與多模態 agent 訓練框架（PyVision‑RL、AceGRPO），試圖建立穩定、資料效率更高的 RLFT 工程棧。

技術細節

課程學習與 policy‑improvement bandits（ACTOR‑CURATOR）
- ACTOR‑CURATOR 將「哪種資料餵給模型」視為 bandit 問題，對不同難度與型態樣本進行自動課程調度。
- 在大型基礎模型後訓練中，旨在自動找到能最大化策略改善（policy improvement）的樣本分佈，而非固定混合。
可驗證獎勵與可控探索（RLVR / hybrid‑policy RLVR）
- RLVR 將獎勵來源限制在「可驗證」訊號（如規則、工具回傳），減少對人評依賴。
- hybrid‑policy 與可控探索設計允許在安全邊界內調節探索強度，對抗熵崩潰與過度利用。
離策略與批次適應（BAPO）
- BAPO 將 RLVR 擴展到 off‑policy 設定，藉由批次重加權與緩衝區設計，專攻「困難但關鍵」樣本，減少獎勵同質性與經驗浪費。
- 對實務上大規模記錄資料（logs）再利用尤為關鍵。
穩定序列級 RLFT：VESPO
- VESPO（Variational Sequence‑Level Soft Policy Optimization）在序列級別做 soft policy optimization，結合重要性抽樣處理行為策略與當前策略間分佈差異。
- 目標是緩解策略陳舊（policy staleness）與訓練/推理引擎不匹配導致的崩潰。
多模態/agentic 設定（PyVision‑RL, AceGRPO）
- PyVision‑RL 專為開放權重多模態與具代理性（agentic）模型設計 RL 框架，重點是避免 interaction collapse、維持工具使用與多輪互動。
- AceGRPO（Adaptive Curriculum Enhanced GRPO）將自適應課程與 Group Relative Policy Optimization 結合，用於自動化機器學習工程任務（Autonomous MLE）。
優化器與參數空間壓縮
- 「Do We Need Adam?」實驗顯示在 RLFT 場景中，SGD 亦可達到強且稀疏的策略更新，對主流用 Adam 的慣例提出質疑。
- 「From Parameters to Behaviors」指出高維參數空間 Θ 存在巨大冗餘，提出無監督策略空間壓縮以提升樣本效率。

應用場景

指令對齊、工具使用、對話安全等 LLM/MLLM 後訓練管線。
需要長期互動的多模態 agent（例如視覺助理、機器人控制、教學系統）。
開發自動化 MLE、AutoML/工程 agent，透過 AceGRPO 類方法自動探索 pipelines。
分析 Atari100k 等基準中 model‑based RL 的表現不對稱，作為挑選策略與架構的依據。

關鍵實體：ACTOR‑CURATOR、RLVR、BAPO、VESPO、PyVision‑RL、AceGRPO、entropy collapse、policy staleness
重要性：★★★★★
來源： arXiv:2602.20532 | arXiv:2602.20527 | arXiv:2602.20400

Agentic 注入軟體生態系統架構（AISE）

核心摘要
LLM agent 正從「單一聊天產品」走向「軟體生態系統基礎能力」。一組論文提出 Agentic Infused Software Ecosystem（AISE）構想，核心是可重用的 agentic skills、標準化外部工具協定（MCP、OpenPort）、針對間接提示注入（IPI）的攻防框架，以及可驗證的代理執行記錄（Right to History / Sovereignty Kernel）與「不受信監督」安全分析，重構整體軟體架構與治理模式。

技術細節

AgentOS 與 Agentic Skills
- AgentOS 將智能從 token-level 推進到 system-level，強調代理作為長期、具狀態的系統組件。
- Agentic Skills 被定義為可組合的程序化能力，附帶：適用條件、執行政策、終止準則、可重用介面，方便跨應用重用與治理。
工具與資料介面：MCP / OpenPort
- Model Context Protocol (MCP) 與 OpenPort Protocol 針對「模型如何安全接觸外部世界」制定約束：最小權限授權、受控寫入、預期化失敗與審計。
- 將傳統「隨意 HTTP 工具調用」提升為有型別與權限模型的協定層。
間接提示注入（IPI）攻防
- AdapTools 顯示工具型 IPI 可針對不同工具回應自適應調整攻擊載荷，顯著提升繞過率。
- ICON（Inference‑Time Correction）改在推理時進行輸入修正與過濾，避免一味「嚴格拒絕」導致可用性崩潰。
可驗證執行與日誌：Right to History / Sovereignty Kernel
- 提出對代理行為的防篡改、獨立可驗證記錄——不只是 log，而是符合監管（如 EU AI Act 類）可追溯要求的「歷史權」。
- Sovereignty Kernel 設計為代理調用外部資源與執行高風險動作的可信執行核心。
Untrusted Monitoring 與資料集真實性
- 分析「以未被信任的模型監督另一模型」的安全風險，包含合謀、失誤放大等問題。
- 指出現有安全資料集存在 Intent Laundering 等問題，無法真實反映現實世界攻擊策略與分佈外樣本。

應用場景

重構企業內部工作流，以 agentic skills 組裝長期任務（如軟體開發、運維、自動報表）。
金融、醫療等高監管場域中，需要可驗證日誌與外部工具最小權限治理的代理系統。
安全團隊用於設計/測試 IPI 防護策略與安全評估基準。

關鍵實體：AISE、AgentOS、Agentic Skills、MCP、OpenPort、IPI、AdapTools、ICON、Sovereignty Kernel
重要性：★★★★★
來源： arXiv:2602.20979 | arXiv:2602.20867 | arXiv:2602.20720

模型與技術更新（Model & Research Updates）

CrystaL：MLLM 視覺潛在表徵與潛在推理

核心摘要
一系列工作開始系統性打開多模態大型模型的「黑盒」，從視覺潛在表徵、潛在 Chain‑of‑Thought（latent CoT）、遞歸信念更新到電路追蹤與分佈式對齊，試圖同時解決多模態推理的效率、可解釋性與魯棒性問題。代表性實例包括 CrystaL、Recursive Belief VLM、Fast‑ThinkAct、Molmo2、VAUQ 等。

技術細節

潛在 CoT 與隱性規劃
- CrystaL 等方法表明，MLLM 內部隱藏狀態中存在「潛在思考鏈」，可在不輸出長 CoT 的前提下進行多步推理。
- Fast‑ThinkAct 提出 verbalizable latent planning：規劃流程在隱空間完成，只在需要時計劃被言語化，降低延遲。
電路追蹤與可解釋性
- Circuit Tracing 透過 transcoders、attribution graphs、attention 跟蹤，分析從視覺 patch 到語義 token 的資訊流，識別多模態推理中的關鍵子電路。
- 可用於定位錯誤來源、優化架構或做安全審計。
分佈式對齊：超越 InfoNCE / CLIP
- 傳統 CLIP 類模型以 InfoNCE 做成對對齊，忽略了模態內分佈結構。
- 新工作以 Cauchy‑Schwarz Divergence 做「分佈對分佈」對齊，有望在長尾與多樣場景中提升穩定性。
記憶增強與遞歸信念
- Dual‑Memory Augmented VLA 將長期 Global Prior 與短期 Local Consistency 結合，以支援機器人長時間操作。
- Recursive Belief VLM 顯式維護信念狀態，處理部分可觀測與感知別名（perceptual aliasing），避免在長序列中重複無效查詢。
不確定性量化與自我評估
- VAUQ 對 LVLM 的視覺感知不確定性進行建模，校正單靠語言先驗的自評偏差，減少幻覺與過度自信。

應用場景

高效率視覺問答、影片理解與視覺數學解題（如 CogFlow）。
具身 VLA 中的長期操作控制與導航、自駕駛場景（NoRD）。
智慧家居與人體感測（HoloLLM），藉遞歸信念與雙重記憶提升穩定性。
多模態模型安全與可解釋性分析（透過電路追蹤與不確定性估計）。

關鍵實體：CrystaL、latent CoT、Recursive Belief VLM、Fast‑ThinkAct、Molmo2、VAUQ、Dual‑Memory VLA、Cauchy‑Schwarz Divergence
重要性：★★★★☆
來源： arXiv:2602.20980 | arXiv:2602.20330 | arXiv:2602.20659

階段感知可學預測器加速擴散模型（LESA / LADD 等）

核心摘要
擴散模型在影像、影片與語言生成上表現優異，但推理成本與步數成為部署瓶頸。近期工作從「時間步維度」優化 Diffusion Transformers（DiTs）與離散擴散模型：LESA 用可學的階段感知預測器替代昂貴的 full‑model 前向；LADD 則針對離散擴散中的因子化反向轉移導致的少步數退化問題，引入潛在增強與跨 token 相依建模；另有工作將擴散模型嵌入 offline RL 軌跡規劃，要求轉移一致性。

技術細節

LESA：Learnable Stage‑Aware Predictors
- 面向 DiTs 的推理加速：將每個時間階段的預測視為可學函數，部分階段用輕量 predictor 近似，僅在關鍵步驟調用完整模型。
- 相較簡單 feature caching 或 training‑free forecasting，更能適配具體數據與任務。
離散擴散：LADD（Latent‑Augmented Discrete Diffusion）
- 指出目前離散擴散多採用 factored reverse transitions，忽視 token‑token 依賴，在 few‑step regime 下生成品質顯著退化。
- LADD 透過 latent augmentation 在隱空間顯式建模跨 token 相依，使少步數反向仍保留整體結構。
擴散規劃與環境一致性
- 將擴散用於離線 RL 的 trajectory generation 時，若不建模環境 dynamics，易生成在真實環境不可行的軌跡。
- environment mechanism modeling 以環境轉移機制調制擴散過程，確保連續狀態與動作間的一致性。

應用場景

高吞吐影像與影片生成（在雲端或邊緣端減少推理步數）。
快速語言生成與程式生成的離散擴散模型。
離線 RL 中利用擴散產生安全且可執行的軌跡，用於規劃與模擬。

關鍵實體：LESA、DiTs、LADD、factored reverse transitions、environment mechanism modeling
重要性：★★★☆☆
來源： arXiv:2602.20497 | arXiv:2602.20422 | arXiv:2510.18114

解耦式因果識別與語義–統計因果發現（CausalReasoningBenchmark / DMCD）

核心摘要
因果推理研究開始從「單一數值指標」走向更貼近科學實務的流程視角。CausalReasoningBenchmark 指出現有基準多直接以 ATE 等數值評估，把「識別」與「估計」混為一談；DMCD（DataMap Causal Discovery）則結合 LLM 與統計方法，在因果結構發現中顯式分離「語義草案」與「數據驗證」。

技術細節

識別 vs 估計的解耦基準
- CausalReasoningBenchmark 主張：
  - 識別：在給定假設下制定有效的研究設計（例如選擇工具變數、匹配策略、實驗設計）。
  - 估計：在既定設計下，數值上實作估計（如各種估計器、調參）。
- 單一 ATE 指標無法判斷模型是「設計錯了」還是「實作做得差」，因此提出使用真實世界資料，分別評估識別與估計兩階段。
DMCD：語義–統計兩階段因果發現
- Phase I：LLM 根據變數元資料（描述欄、欄位關係等）生成稀疏 draft DAG，作為語義先驗。
- Phase II：在觀察資料上對該 DAG 進行統計驗證與修正，避免僅憑語言模型幻覺結構。
- 透過將 LLM 輸出限制為「稀疏先驗」，統計搜尋空間被收斂，同時保留可檢驗性。

應用場景

對自動化因果推理系統（含 LLM‑based）進行更細緻的基準測試與方法比較。
在醫療、經濟等高維觀察資料上，以 DMCD 類方法結合專家語意與統計證據進行因果結構發現。

關鍵實體：CausalReasoningBenchmark、ATE、DMCD、LLM‑guided DAG、observational data
重要性：★★★☆☆
來源： arXiv:2602.20571 | arXiv:2602.20333

工具與資源（Tools & Resources）

LLM-LD 與 vLLM：AI 可讀網站與高吞吐服務引擎

核心摘要
在應用層與推理層，同時出現兩個值得關注的基礎組件：LLM‑LD 企圖成為「AI 可讀網站」的開放標準，使網頁內容更適合 LLM 消費；vLLM 則持續作為高吞吐 LLM 服務引擎的事實標準之一，被廣泛集成於各雲端平台與專案。

技術細節

LLM‑LD
- 定位為「Open Standard for AI‑Readable Websites」，目標是定義一種標註/結構化方式，讓網站對 LLM 更友好。
- 目前公開資訊僅止於標準方向與站點，尚未披露具體 schema 或實作細節。
vLLM
- GitHub 專案標註為 high‑throughput LLM serving engine，聚焦推理時效能與資源利用率。
- 雖未在來源中細述，但其常見用途包括持久 KV cache、連續批次（continuous batching）等技術（本報告不展開未在來源中明示的細節）。

應用場景

內容網站標註為 LLM‑LD，提高被 agent / 搜索 /問答系統準確讀取與解析的能力。
自建或雲端部署推理服務時選用 vLLM 作為 serving backend，提升多用戶高併發性能。

關鍵實體：LLM‑LD、vLLM、llmld.org、vllm‑project
重要性：★★★☆☆
來源： llmld.org | vLLM GitHub

快取感知 prefill–decode 分離與 token 壓縮（Together.ai / Lattice-proxy）

核心摘要
LLM 推理成本愈發由 I/O 與記憶體主導。Together.ai 提出「cache‑aware prefill–decode disaggregation」以 40% 服務提速為目標；Lattice‑proxy 則聲稱對現有 LLM API 可實現 93% token 壓縮且作為 drop‑in 代理，皆指向「不改模型、改通路」的系統優化方向。

技術細節

cache‑aware prefill–decode disaggregation
- 觀察到 prefill（編碼上下文）與 decode（自回歸生成）在計算與記憶 pattern 上截然不同。
- 將兩者在系統層拆分並做 cache‑aware 資源配置，可減少 decode 階段因 cache miss 與不均衡造成的瓶頸。
- Together.ai 對外宣稱可達約 40% 服務加速。
Lattice‑proxy：token 壓縮代理
- 作為 LLM API 的 proxy，聲稱可對請求實現 93% token 壓縮，並以 drop‑in replacement 自居。
- 雖未披露具體壓縮演算法，但意味著在不改動下游模型的情況下，從請求層面大幅降低計費與頻寬。

應用場景

雲服務商與大型應用在自建推理集群時，拆分 prefill / decode 流量以更細緻調度 GPU / CPU / cache。
開發方透過 Lattice‑proxy 類系統，在不改上層產品與下層模型的前提下，降低 token 成本與延遲。

關鍵實體：Together.ai、prefill–decode disaggregation、Lattice‑proxy、token compression
重要性：★★★☆☆
來源： Together.ai Blog | latticeproxy.io

vLLM 在 SageMaker AI 與 Amazon Bedrock 上的多模型高效服務

核心摘要
AWS 介紹如何在 Amazon SageMaker AI 與 Bedrock 上結合 vLLM，為數十個微調後模型（含 Mixture‑of‑Experts 家族）提供高效推理服務，核心目標是降低「每模型一個 GPU 端點」造成的閒置與成本浪費。

技術細節

多模型共享 vLLM backend
- 利用 vLLM 的高吞吐 serving 能力，在單一或少數 GPU 端點上同時承載多個 fine‑tuned checkpoint。
- 對於流量低且不穩定的長尾模型，可透過共用資源顯著降低 idle GPU 成本。
面向 MoE 家族與多變體
- 案例中特別提及 Mixture‑of‑Experts 模型族，說明方案亦考慮較複雜推理 pattern。
- 文件中出現「Multi‑Low‑Rank Ada」字樣，指向在多 LoRA / 多 adapter 場景下的專門優化，細節未公開。

應用場景

SaaS 或企業內部需要維護大量客戶專屬 / 部門專屬微調模型時，使用單一 vLLM 叢集集中服務。
在 Bedrock 上同時部署基礎模型與多個 LoRA/PEFT 模型變體，降低運維與計費複雜度。

關鍵實體：vLLM、Amazon SageMaker AI、Amazon Bedrock、Mixture‑of‑Experts、Multi‑Low‑Rank Ada
重要性：★★★☆☆
來源： AWS ML Blog

產業與應用動態（Industry Applications）

基於迭代策略精煉的 LLM 感覺–動作控制

核心摘要
LLM/MLLM 不再只輸出自然語言，而是直接生成將連續觀測向量映射到連續動作向量的控制策略，用作具身代理與軟體代理的決策核心。研究集中在「迭代策略精煉」框架、從自然語言生成導航/規劃約束、工具使用介面設計與推薦系統/搜尋代理的行為優化。

技術細節

Iterative Policy Refinement
- 初始策略由 LLM 根據環境與目標描述產生，接著透過互動與反饋迭代修正，逐步將抽象策略壓縮為穩定的觀測→動作映射。
- 支援連續觀測與連續動作空間，實際對接機器人或模擬器。
約束生成與規劃
- LLM 用於生成複雜空間/數學/條件約束，將自然語言需求轉為形式化規劃問題（例如路徑約束、碰撞規則、資源限制）。
代理訓練與合成資料
- 針對搜尋代理，以 entity‑centric synthetic data 進行監督，但現有 GRPO 會丟失實體層級資訊，且獎勵稀疏。
- 提示工程與微調目前仍是主流優化手段，但效果與穩定性有限。
工具使用與介面工程
- 在 web browsing、code execution、data analysis、推薦系統中，研究證實「工具描述與參數 schema 的自然語言設計」是性能瓶頸之一。
- Oracular Programming 提出以可強制合約的方式包裝工具與模組，避免 LLM 直接駕馭複雜邏輯。
評測與偏誤
- Deep Information Synthesis、BrowseComp‑V3 等新基準要求多來源資訊整合與多模態瀏覽，指出現有基準無法反映真實任務。
- LLM‑as‑a‑judge 存在系統性偏誤，對代理評估可靠性提出警告。

應用場景

具身機器人導航與操作（含高維度行為控制）。
具工具使用能力的資料分析/搜尋/客服代理。
生成式推薦系統（將 log verbalization 為自然語言，再交由 LLM 推理）。
內部內容審核與評估系統（需謹慎處理 LLM‑as‑a‑judge 偏誤）。

關鍵實體：Iterative Policy Refinement、GRPO、entity‑centric data、Oracular Programming、BrowseComp‑V3、LLM‑as‑a‑judge
重要性：★★★★☆
來源： arXiv:2506.04867 | arXiv:2602.21143 | arXiv:2602.20558

結合影像與語音之多模態人機互動與操控框架

核心摘要
多模態人機互動（HRI）正由「單一視覺或語言通道」升級為 VLM + 語音 + 模糊邏輯 + 模仿學習的綜合架構，用於提升對人類意圖的理解與複雜雙手/移動操作的可學性，同時引入測試時計憶、自我演化規劃與零‑shot 工具操作，顯著降低示範資料需求。

技術細節

多模態整合
- 以 VLM 作為 perception 與 high‑level reasoning 中樞，結合語音處理模組與模糊邏輯對人類指令與情境進行推理。
可導向模仿與 Inner Speech
- steerable imitation 與「內部語言（Inner Speech）」為機器人提供可控的行為生成通道，可在保持模仿多樣性的同時由語言指令進行調節。
MoMaGen：受軟/硬約束的雙手移動示範生成
- 在多步驟、雙手、高自由度手臂 + 移動底盤場景中，自動生成滿足「軟/硬約束」的示範，緩解遙操作資料稀缺。
測試時計憶與自我演化規劃
- 透過 test‑time memory 累積與環境互動的經驗，逐步學習摩擦、穩定性等物理特性，彌補 VLM 對細緻物理行為預測的不足。
物件中心零‑shot 工具操作（SimToolReal）
- 以 object‑centric policy 表徵工具與物件關係，搭配 sim‑to‑real，使精巧工具操作在實機上以零或少量示範達成。
類人運動生成（PMG）
- Parameterized Motion Generator 結合資料驅動學習、動作追蹤與軌跡追隨控制，生成自然的類人步態與全身動作。

應用場景

協作機器人在工業、生醫、服務場域中與人類共同完成多步驟雙手任務。
助理型機器人透過語音 + 視覺理解使用者意圖，完成日常操作。
類人型機器人行走與操作控制。
高專業度跨領域任務中的分割式人類監督，提升標註與評估可擴展性。

關鍵實體：VLM、模糊邏輯、MoMaGen、Inner Speech、SimToolReal、PMG、test‑time memory
重要性：★★★★☆
來源： arXiv:2602.20219 | arXiv:2602.20323 | arXiv:2602.16863

以盜版 Office 誘餌的 XMRig 挖礦與驅動 BYOVD 濫用

核心摘要
最新惡意活動顯示，攻擊者利用偽裝為盜版 Microsoft Office / WPS Office 的安裝檔投放客製 XMRig 挖礦程式，並結合 BYOVD（Bring‑Your‑Own‑Vulnerable‑Driver）、惡意 LNK、DLL 側載與 USB 橫向移動。控制程式與挖礦模組分離運作且具自我恢復機制，使清除難度顯著上升。

技術細節

控制程式與挖礦模組分離
- 控制程式偽裝為 Explorer.exe，透過命令列參數切換安裝、挖礦、持久化、自我清除等模式。
- 控制程式持續監控挖礦進程，一旦被終止即重新啟動，單純 kill miner 無法停用攻擊。
交付與社交工程
- 惡意安裝檔名稱與目錄結構仿造官方 Office / WPS 安裝程式，以盜版軟體作誘餌提升下載率。
BYOVD 與橫向移動
- 利用舊版驅動（如 wsftprm.sys）實作 BYOVD，繞過安全機制或獲取高權限。
- 攻擊程式可透過 USB 隨身碟擴散，搭配惡意 LNK、DLL 側載與 Shellcode 達成多向執行。
關聯 APT 活動
- Silver Fox APT 近期活動亦利用稅務/雲端發票誘餌散布 Winos 4.0（ValleyRAT）及 Gh0st 系列 RAT，顯示「常見業務文件 + 稅務場景」已成高風險入口。

應用場景

企業端 EDR/SIEM 需對「Explorer.exe 但帶挖礦行為」與 BYOVD 驅動載入行為設計特徵檢測。
SOC 團隊需加強對 USB 媒介、LNK 檔與 DLL 側載鏈的監控與隔離策略。
對台灣等地區性稅務/發票相關郵件與可執行附件提升威脅意識。

關鍵實體：XMRig、Monero、Explorer.exe 偽裝、wsftprm.sys、BYOVD、ValleyRAT、Silver Fox
重要性：★★★★☆
來源： iThome 報導1 | iThome 報導2 | iThome 報導3

產業趨勢與觀點（Industry Trends & Insights）

Claude 與美國國防部軍用整合的技術與治理爭議

核心摘要
美國國防部對 Anthropic 的 Claude 下達硬性期限，要求接受「涵蓋軍用的全面新條款」，外界質疑可能包括用於致命性自主武器。Anthropic 至今拒絕讓步，而 OpenAI 與 xAI reportedly 已同意五角大廈新要求。Anthropic 目前被指為唯一已深入整合至機密軍事系統的前沿模型供應商，使其態度具關鍵指標意義。

核心摘要（延伸）

2025 年 7 月，五角大廈與 OpenAI、Google、Anthropic、xAI 各簽署最多 2 億美元合約，為期數年的前沿模型採購與整合。
若 Anthropic 持續拒絕，DoD 可能援引《國防生產法》或以供應鏈風險為由中止合作，凸顯政府對前沿模型存取的制度槓桿。

關鍵實體：Anthropic、Claude、OpenAI、Google、xAI、DoD、Defense Production Act
重要性：★★★★★
來源： Podcast 訪談 | iThome 報導

AI 基礎設施與資料中心擴建遭遇公共反對

核心摘要
隨著資料中心與 AI 基礎設施建設激增，多地社群與地方政府對能源使用、土地占用與環境影響的反彈升溫，部分地區已推動「禁止新建資料中心」等硬性政策，對未來 AI 訓練與推理基礎建設形成實質約束。

核心摘要（延伸）

報導指出，反對聲浪直接導致若干地區對新設資料中心實施 moratorium 或嚴格審批制度。
這與同日多則「雲服務商吸收電價上漲」「大型 GPU 採購（如 AMD‑Meta 6GW）」形成鮮明對比，顯示基礎設施擴張在政治與社會層面面臨更高摩擦。

關鍵實體：資料中心、AI 基礎設施、地方政策、新建禁令
重要性：★★★★☆
來源： TechCrunch

白宮要求 AI 公司承擔電價上漲成本

核心摘要
白宮公開要求 AI 公司與雲端 hyperscalers 承擔因 AI 用電攀升導致的電價上漲成本；TechCrunch 指出，多數大型供應商已事先承諾會吸收電費，避免直接轉嫁至終端用戶或一般居民。

核心摘要（延伸）

雖然報導未點名具體雲商，但在資料中心反對聲浪與電網壓力升高背景下，此舉等同將 AI 能源外部性部份「內部化」到供應商財報。
結合 Nvidia 強勁資料中心營收、AMD‑Meta 大規模 GPU 採購與地方新建禁令，可見未來 1–3 年 AI infra 將在「技術、資本、能源、政治」四維拉鋸。

關鍵實體：白宮、AI 公司、hyperscalers、電價上漲
重要性：★★★☆☆
來源： TechCrunch

市場動態精選（Key Market Updates）

OpenClaw 一鍵部署與 Qwen3.5/GLM-5 雲端開放權重生態

核心摘要
MiniMax 在其 Agent 平台推出 MaxClaw 模式，宣稱可對 OpenClaw 實現「真·一鍵配置」，平台已內建 1 萬+ 垂直領域專家智能體；阿里雲則同步上線 Qwen3.5、GLM‑5、MiniMax M2.5、Kimi K2.5 等多款開源模型，搭配「Coding Plan」多模型 API 與高性價比 Qwen3.5‑Flash 托管服務，加速開放權重模型的商用普及。

技術細節

MiniMax Agent 平台
- MaxClaw：面向 OpenClaw 的一鍵配置模式，使開發者可透過聊天快速構建並發布專屬助理。
- 內建超過 10,000 個垂直專家智能體，並有積分獎勵與市場化機制。
Qwen3.5 系列與雲端托管
- 新增多個中型變體（如 Qwen3.5‑35B‑A3B、122B‑A10B、27B），採混合注意力機制並宣稱在多項榜單超越上代更大模型。
- Qwen3.5‑Flash 以每百萬 token 輸入 0.2 RMB 的價格在阿里雲百煉提供托管推理，並標示可在消費級顯卡本地部署。
Coding Plan 多模型 API
- 提供 Lite / Pro 套餐，允許開發者在 Qwen3.5、GLM‑5、MiniMax M2.5、Kimi K2.5 等模型間自由切換，降低被單一模型綁定的風險。

應用場景

快速搭建面向具體行業（法務、稅務、醫療、教育等）的專家 Agent。
在成本敏感場景下，以 Qwen3.5‑Flash 作為低價高效推理 backend。
研發團隊以多模型 API 做 A/B 測試與動態路由。

關鍵實體：MiniMax、OpenClaw、MaxClaw、Qwen3.5、GLM‑5、Kimi K2.5、阿里雲百煉、Coding Plan
重要性：★★★★☆
來源： QbitAI 報導1 | QbitAI 報導2 | QbitAI 報導3

AMD 與 Meta：6GW Instinct GPU 與 Helios 機架級架構

核心摘要
AMD 與 Meta 達成多年合作協議，Meta 將採購最高 6GW 規模的 AMD Instinct GPU，首批 1GW 預計 2026 下半年出貨，雙方同時共同開發 Helios 機架級架構。這標誌著 AMD 正式進入大規模客製化 AI 晶片戰場，也是 Meta Compute 長期 AI 基礎設施計畫的關鍵組件。

核心摘要（延伸）

Meta Compute 計畫目標為數十 GW，長期甚至數百 GW 級運算與能源基礎設施，以支撐所謂「個人超智慧時代」。
Helios 機架級設計將圍繞 Instinct GPU 對電力、散熱、網路拓撲與管理平面做整體優化，形成高度整合的 rack‑scale 解決方案。

關鍵實體：AMD、Instinct GPU、Meta、Helios、Meta Compute
重要性：★★★★☆
來源：來源1 | 來源2

Nvidia 資料中心需求推動財報持續超預期

核心摘要
Nvidia 最新季度財報再度高於華爾街預期，延續多年季季超預期記錄。公司大部分營收已來自資料中心與 AI 相關需求，在「AI 泡沫」疑慮聲中展現營收與獲利的持續韌性，財報公布後股價於盤後走高。

關鍵實體：Nvidia、資料中心、AI、華爾街
重要性：★★★☆☆
來源： The Guardian

編輯洞察（Editor’s Insight）

今日趨勢總結

今日技術線索高度集中在兩條主軸：一是「推理效能與成本」的系統性優化，從高效 CoT、GraphRAG、CHESS、LESA 到離散擴散的 LADD，顯示社群已從單純追求 benchmark 分數，轉向在固定或略增算力前提下擠出更多推理質量。強化學習後訓練（RLFT/RLVR）也沿著這一軸線進化，以 Actor‑Curator、BAPO、VESPO 等方法補上穩定性與樣本效率缺口。

第二條主軸是「agentic 化與生態系整合」。AgentOS / AISE、OpenClaw、大型雲上多模型 API、Bedrock AgentCore 以及 Google Opal 的 Agentic AI，都在把 LLM 從單一模型變成系統中的「長駐組件」。相對應的安全議題——間接提示注入、Agent‑Mediated Deception、可驗證執行日誌——開始被當作架構層面的設計問題，而不是事後補洞。

在產業面，GPU 供應與 infra 擴張呈現出「資本與政治拉扯」：AMD‑Meta 6GW、Nvidia 財報大幅受益於資料中心需求，同時地方政府與白宮分別從建設許可與能源成本兩端施壓。這將反過來影響模型訓練頻率、開源/閉源策略與地域性部署選擇。

技術發展脈絡

從高效推理與 RLFT 工作可以看出，LLM 正從「生成」走向「搜尋 + 規劃 + 驗證」綜合體：多路徑生成 + 符號驗證、GraphRAG、多步 test‑time search、對比解碼，讓模型更像在做受約束的搜尋，而不是單向 next‑token。這與 diffusion‑based 規劃與 environment mechanism modeling 在 RL 領域的動向高度類似，指向一個統一的「probabilistic planning」框架。

在系統層，vLLM、cache‑aware prefill–decode 分離、token 壓縮代理與 Peer Direct 類 NIC‑side 優化共同反映：瓶頸正從 FLOPs 轉向記憶體頻寬與 I/O。RPU 構想與 Helios rack‑scale 設計屬於同一趨勢——為推理與訓練專門優化 memory hierarchy 與 network fabric，而不是一味疊 GPU。

未來展望

短中期內，可預期高效推理技術會快速進入商用：測試時計算（contrastive decoding、search）、GraphRAG、長上下文裁剪與 fast diffusion 將會成為雲端與大客戶部署的「標配增益」。這對模型提供者意味著不必線性放大模型與算力，就能在特定推理任務上明顯拉開差距。

在治理與市場層面，軍用整合（Claude–DoD）、能源成本內部化、地方資料中心禁建，將迫使大模型供應鏈思考「多極化」與「分層部署」：邊緣/本地中型模型（如 Qwen3.5‑35B）＋少數超大模型雲端服務的混合格局，可能比「一切都在雲上」更可持續。

關注清單：

高效推理與 test‑time search 技術在主流商用 API 中的落地節奏。
AISE / MCP / OpenPort 等 agentic 軟體協定是否會形成事實標準。
RLFT/RLVR 在多模態與 agent 任務上的穩定性與可重現性。
資料中心擴建與能源政策對訓練頻率與開源模型節奏的實際影響。
LLM‑based 因果推理與科學發現框架（如 DMCD、具身科學）在實務領域的採用情況。

延伸閱讀與資源

深度文章推薦

arXiv:2602.20945 — Efficient LLM Reasoning — 系統性涵蓋高效 CoT、GraphRAG、CHESS 與 test‑time search，適合作為近期推理優化的技術入口。
arXiv:2602.20532 — ACTOR-CURATOR — 詳細介紹 policy‑improvement bandits 與自動課程學習在 RLFT 中的設計與實驗。
arXiv:2602.20979 — Agentic Infused Software Ecosystem — 從系統架構與安全治理角度重構 LLM agent 在軟體生態中的角色。

本日關鍵詞

高效推理 GraphRAG RLFT policy-improvement bandits Agentic Skills latent CoT Diffusion Transformers cache-aware serving BYOVD 資料中心擴建

資料來源：408 篇文章 | 分析主題：80 個
資料收集時間：過去 24 小時 | 報告生成時間：2026/02/26 06:47:36 CST

今日焦點（Top Headlines）#

高效推理：資料、獎勵與優化策略#

Actor-Curator：Policy‑Improvement Bandits 共適應課程學習#

Agentic 注入軟體生態系統架構（AISE）#

模型與技術更新（Model & Research Updates）#

CrystaL：MLLM 視覺潛在表徵與潛在推理#

階段感知可學預測器加速擴散模型（LESA / LADD 等）#

解耦式因果識別與語義–統計因果發現（CausalReasoningBenchmark / DMCD）#

工具與資源（Tools & Resources）#

LLM-LD 與 vLLM：AI 可讀網站與高吞吐服務引擎#

快取感知 prefill–decode 分離與 token 壓縮（Together.ai / Lattice-proxy）#

vLLM 在 SageMaker AI 與 Amazon Bedrock 上的多模型高效服務#

產業與應用動態（Industry Applications）#

基於迭代策略精煉的 LLM 感覺–動作控制#

結合影像與語音之多模態人機互動與操控框架#

以盜版 Office 誘餌的 XMRig 挖礦與驅動 BYOVD 濫用#

產業趨勢與觀點（Industry Trends & Insights）#

Claude 與美國國防部軍用整合的技術與治理爭議#

AI 基礎設施與資料中心擴建遭遇公共反對#

白宮要求 AI 公司承擔電價上漲成本#

市場動態精選（Key Market Updates）#

OpenClaw 一鍵部署與 Qwen3.5/GLM-5 雲端開放權重生態#

AMD 與 Meta：6GW Instinct GPU 與 Helios 機架級架構#

Nvidia 資料中心需求推動財報持續超預期#

編輯洞察（Editor’s Insight）#

今日趨勢總結#

技術發展脈絡#

未來展望#

延伸閱讀與資源#

深度文章推薦#

相關技術背景#

本日關鍵詞#

今日焦點（Top Headlines）

高效推理：資料、獎勵與優化策略

Actor-Curator：Policy‑Improvement Bandits 共適應課程學習

Agentic 注入軟體生態系統架構（AISE）

模型與技術更新（Model & Research Updates）

CrystaL：MLLM 視覺潛在表徵與潛在推理

階段感知可學預測器加速擴散模型（LESA / LADD 等）

解耦式因果識別與語義–統計因果發現（CausalReasoningBenchmark / DMCD）

工具與資源（Tools & Resources）

LLM-LD 與 vLLM：AI 可讀網站與高吞吐服務引擎

快取感知 prefill–decode 分離與 token 壓縮（Together.ai / Lattice-proxy）

vLLM 在 SageMaker AI 與 Amazon Bedrock 上的多模型高效服務

產業與應用動態（Industry Applications）

基於迭代策略精煉的 LLM 感覺–動作控制

結合影像與語音之多模態人機互動與操控框架

以盜版 Office 誘餌的 XMRig 挖礦與驅動 BYOVD 濫用

產業趨勢與觀點（Industry Trends & Insights）

Claude 與美國國防部軍用整合的技術與治理爭議

AI 基礎設施與資料中心擴建遭遇公共反對

白宮要求 AI 公司承擔電價上漲成本

市場動態精選（Key Market Updates）

OpenClaw 一鍵部署與 Qwen3.5/GLM-5 雲端開放權重生態

AMD 與 Meta：6GW Instinct GPU 與 Helios 機架級架構

Nvidia 資料中心需求推動財報持續超預期

編輯洞察（Editor’s Insight）

今日趨勢總結

技術發展脈絡

未來展望

延伸閱讀與資源

深度文章推薦

相關技術背景

本日關鍵詞