今日焦點(Top Headlines)
高效推理:資料、獎勵與優化策略
核心摘要
近期大量工作聚焦於讓 LLM「推得對、也推得快」:一方面擴大 Chain-of-Thought(CoT)與多路徑搜尋提升推理表現,另一方面以獎勵塑造與強化學習誘導更短、更準確的思考軌跡,同時在長上下文、檢索增強、多模態與硬體層面提出系統性優化方案,並開始構想專用 Reasoning Processing Unit(RPU)以突破 GPU 的記憶頻寬瓶頸。
技術細節
推理路徑與獎勵設計
- 擴大型 CoT 雖能顯著提升邏輯與數學推理,但計算成本與延遲急遽上升。多篇工作改用 reward shaping + RL,在訓練階段鼓勵「短而正確」的推理路徑,避免一味拉長 CoT。
- Diligent Learner 將 test-time search 的「步驟成功率」γ 顯式建模,並用 GF(2) 電路重建作為外分佈高難度任務,量化模型在搜尋導向推理上的能力。
多路徑與神經符號推理
- LogicGraph 等神經符號框架針對多解構問題,生成多條推理路徑並以符號驗證過濾,從「單一收斂答案」轉向「多路徑正確性」評估。
- 在數學解題上,提出自動與互動式解答驗證管線,替代傳統單一最終答案打分。
結構化檢索增強推理(GraphRAG 系列)
- GraphRAG、HELP(HyperNode Expansion & Logical Path-Guided Evidence Localization)、Structured Relevance Graph 等方法,以圖結構顯式建模文件與實體關係,支持多跳推理與證據路徑定位,同時減少幻覺。
- HyperNode 擴展與路徑導引使檢索不再僅是相似度最近鄰,而是沿著潛在邏輯路徑選取證據。
長上下文與 KV cache 優化(CHESS)
- CHESS(Context-aware Hierarchical Efficient Semantic Selection)在解碼階段做「步驟感知」與「語意感知」token 選取,針對與當前推理步驟無關的 KV cache 進行裁剪,以降低記憶存取開銷與延遲。
- 指出傳統基於位置或粗糙重要度的 prompt pruning 無法處理推理步驟依賴,易破壞思考鏈。
測試時計算與對齊(PromptCD 等)
- PromptCD(Polarity-Prompt Contrastive Decoding)在推理時計算對比解碼,利用極性提示抑制不對齊或有害輸出,作為「不改權重」的 alignment 手段。
- 一系列工作將對比解碼、test-time search 視為行為調節新維度,與訓練階段 SFT / RLFT 互補。
多模態與具身推理
- 視覺語言模型(LVLM)的「因果性診斷圖」揭示現有 benchmark 容易被相關性線索誤導,需要專門設計的因果診斷任務。
- 具身方向上,以 LLM 驅動模擬與行動,用於科學發現與數值模擬異常檢測(如數值不穩定),將語言推理與運行時感知結合。
時序推理與專用硬體
- KairosVL 探索「語義條件時間序列推理」,將自然語言條件與時間序列結合,用於決策支援。
- 多篇工作強調 LLM 推理已從「算力受限」轉向「記憶頻寬受限(memory wall)」工作負載,提出專用 Reasoning Processing Unit(RPU)構想,以對症優化記憶訪問與推理模式。
應用場景
- 高可靠度數學與邏輯推理(含多步驗證、互動解題教學)。
- 大型企業與科學知識庫上,透過 GraphRAG 進行多跳問答與事實核查。
- 長文檔閱讀與長會話系統,藉 CHESS 類方法降低延遲並保持推理品質。
- 科學計算、工業模擬中的異常檢測與推理輔助。
- 金融與工業 IoT 中的語義條件時間序列決策。
關鍵實體:Chain-of-Thought、GraphRAG、LogicGraph、CHESS、PromptCD、Diligent Learner、KairosVL、RPU
重要性:★★★★★
來源: arXiv:2602.20945 | arXiv:2602.21044 | arXiv:2602.20494
Actor-Curator:Policy‑Improvement Bandits 共適應課程學習
核心摘要
RL 後訓練(RLFT / RLVR)快速成為對齊與強化 LLM/MLLM 的主流路徑,同時暴露出熵崩潰、經驗浪費、策略陳舊與訓練不穩定等問題。新一輪工作圍繞 Actor‑Curator 課程學習、離策略 Batch Adaptation(BAPO)、變分序列級軟策略最適化(VESPO)、可控探索與多模態 agent 訓練框架(PyVision‑RL、AceGRPO),試圖建立穩定、資料效率更高的 RLFT 工程棧。
技術細節
課程學習與 policy‑improvement bandits(ACTOR‑CURATOR)
- ACTOR‑CURATOR 將「哪種資料餵給模型」視為 bandit 問題,對不同難度與型態樣本進行自動課程調度。
- 在大型基礎模型後訓練中,旨在自動找到能最大化策略改善(policy improvement)的樣本分佈,而非固定混合。
可驗證獎勵與可控探索(RLVR / hybrid‑policy RLVR)
- RLVR 將獎勵來源限制在「可驗證」訊號(如規則、工具回傳),減少對人評依賴。
- hybrid‑policy 與可控探索設計允許在安全邊界內調節探索強度,對抗熵崩潰與過度利用。
離策略與批次適應(BAPO)
- BAPO 將 RLVR 擴展到 off‑policy 設定,藉由批次重加權與緩衝區設計,專攻「困難但關鍵」樣本,減少獎勵同質性與經驗浪費。
- 對實務上大規模記錄資料(logs)再利用尤為關鍵。
穩定序列級 RLFT:VESPO
- VESPO(Variational Sequence‑Level Soft Policy Optimization)在序列級別做 soft policy optimization,結合重要性抽樣處理行為策略與當前策略間分佈差異。
- 目標是緩解策略陳舊(policy staleness)與訓練/推理引擎不匹配導致的崩潰。
多模態/agentic 設定(PyVision‑RL, AceGRPO)
- PyVision‑RL 專為開放權重多模態與具代理性(agentic)模型設計 RL 框架,重點是避免 interaction collapse、維持工具使用與多輪互動。
- AceGRPO(Adaptive Curriculum Enhanced GRPO)將自適應課程與 Group Relative Policy Optimization 結合,用於自動化機器學習工程任務(Autonomous MLE)。
優化器與參數空間壓縮
- 「Do We Need Adam?」實驗顯示在 RLFT 場景中,SGD 亦可達到強且稀疏的策略更新,對主流用 Adam 的慣例提出質疑。
- 「From Parameters to Behaviors」指出高維參數空間 Θ 存在巨大冗餘,提出無監督策略空間壓縮以提升樣本效率。
應用場景
- 指令對齊、工具使用、對話安全等 LLM/MLLM 後訓練管線。
- 需要長期互動的多模態 agent(例如視覺助理、機器人控制、教學系統)。
- 開發自動化 MLE、AutoML/工程 agent,透過 AceGRPO 類方法自動探索 pipelines。
- 分析 Atari100k 等基準中 model‑based RL 的表現不對稱,作為挑選策略與架構的依據。
關鍵實體:ACTOR‑CURATOR、RLVR、BAPO、VESPO、PyVision‑RL、AceGRPO、entropy collapse、policy staleness
重要性:★★★★★
來源: arXiv:2602.20532 | arXiv:2602.20527 | arXiv:2602.20400
Agentic 注入軟體生態系統架構(AISE)
核心摘要
LLM agent 正從「單一聊天產品」走向「軟體生態系統基礎能力」。一組論文提出 Agentic Infused Software Ecosystem(AISE)構想,核心是可重用的 agentic skills、標準化外部工具協定(MCP、OpenPort)、針對間接提示注入(IPI)的攻防框架,以及可驗證的代理執行記錄(Right to History / Sovereignty Kernel)與「不受信監督」安全分析,重構整體軟體架構與治理模式。
技術細節
AgentOS 與 Agentic Skills
- AgentOS 將智能從 token-level 推進到 system-level,強調代理作為長期、具狀態的系統組件。
- Agentic Skills 被定義為可組合的程序化能力,附帶:適用條件、執行政策、終止準則、可重用介面,方便跨應用重用與治理。
工具與資料介面:MCP / OpenPort
- Model Context Protocol (MCP) 與 OpenPort Protocol 針對「模型如何安全接觸外部世界」制定約束:最小權限授權、受控寫入、預期化失敗與審計。
- 將傳統「隨意 HTTP 工具調用」提升為有型別與權限模型的協定層。
間接提示注入(IPI)攻防
- AdapTools 顯示工具型 IPI 可針對不同工具回應自適應調整攻擊載荷,顯著提升繞過率。
- ICON(Inference‑Time Correction)改在推理時進行輸入修正與過濾,避免一味「嚴格拒絕」導致可用性崩潰。
可驗證執行與日誌:Right to History / Sovereignty Kernel
- 提出對代理行為的防篡改、獨立可驗證記錄——不只是 log,而是符合監管(如 EU AI Act 類)可追溯要求的「歷史權」。
- Sovereignty Kernel 設計為代理調用外部資源與執行高風險動作的可信執行核心。
Untrusted Monitoring 與資料集真實性
- 分析「以未被信任的模型監督另一模型」的安全風險,包含合謀、失誤放大等問題。
- 指出現有安全資料集存在 Intent Laundering 等問題,無法真實反映現實世界攻擊策略與分佈外樣本。
應用場景
- 重構企業內部工作流,以 agentic skills 組裝長期任務(如軟體開發、運維、自動報表)。
- 金融、醫療等高監管場域中,需要可驗證日誌與外部工具最小權限治理的代理系統。
- 安全團隊用於設計/測試 IPI 防護策略與安全評估基準。
關鍵實體:AISE、AgentOS、Agentic Skills、MCP、OpenPort、IPI、AdapTools、ICON、Sovereignty Kernel
重要性:★★★★★
來源: arXiv:2602.20979 | arXiv:2602.20867 | arXiv:2602.20720
模型與技術更新(Model & Research Updates)
CrystaL:MLLM 視覺潛在表徵與潛在推理
核心摘要
一系列工作開始系統性打開多模態大型模型的「黑盒」,從視覺潛在表徵、潛在 Chain‑of‑Thought(latent CoT)、遞歸信念更新到電路追蹤與分佈式對齊,試圖同時解決多模態推理的效率、可解釋性與魯棒性問題。代表性實例包括 CrystaL、Recursive Belief VLM、Fast‑ThinkAct、Molmo2、VAUQ 等。
技術細節
潛在 CoT 與隱性規劃
- CrystaL 等方法表明,MLLM 內部隱藏狀態中存在「潛在思考鏈」,可在不輸出長 CoT 的前提下進行多步推理。
- Fast‑ThinkAct 提出 verbalizable latent planning:規劃流程在隱空間完成,只在需要時計劃被言語化,降低延遲。
電路追蹤與可解釋性
- Circuit Tracing 透過 transcoders、attribution graphs、attention 跟蹤,分析從視覺 patch 到語義 token 的資訊流,識別多模態推理中的關鍵子電路。
- 可用於定位錯誤來源、優化架構或做安全審計。
分佈式對齊:超越 InfoNCE / CLIP
- 傳統 CLIP 類模型以 InfoNCE 做成對對齊,忽略了模態內分佈結構。
- 新工作以 Cauchy‑Schwarz Divergence 做「分佈對分佈」對齊,有望在長尾與多樣場景中提升穩定性。
記憶增強與遞歸信念
- Dual‑Memory Augmented VLA 將長期 Global Prior 與短期 Local Consistency 結合,以支援機器人長時間操作。
- Recursive Belief VLM 顯式維護信念狀態,處理部分可觀測與感知別名(perceptual aliasing),避免在長序列中重複無效查詢。
不確定性量化與自我評估
- VAUQ 對 LVLM 的視覺感知不確定性進行建模,校正單靠語言先驗的自評偏差,減少幻覺與過度自信。
應用場景
- 高效率視覺問答、影片理解與視覺數學解題(如 CogFlow)。
- 具身 VLA 中的長期操作控制與導航、自駕駛場景(NoRD)。
- 智慧家居與人體感測(HoloLLM),藉遞歸信念與雙重記憶提升穩定性。
- 多模態模型安全與可解釋性分析(透過電路追蹤與不確定性估計)。
關鍵實體:CrystaL、latent CoT、Recursive Belief VLM、Fast‑ThinkAct、Molmo2、VAUQ、Dual‑Memory VLA、Cauchy‑Schwarz Divergence
重要性:★★★★☆
來源: arXiv:2602.20980 | arXiv:2602.20330 | arXiv:2602.20659
階段感知可學預測器加速擴散模型(LESA / LADD 等)
核心摘要
擴散模型在影像、影片與語言生成上表現優異,但推理成本與步數成為部署瓶頸。近期工作從「時間步維度」優化 Diffusion Transformers(DiTs)與離散擴散模型:LESA 用可學的階段感知預測器替代昂貴的 full‑model 前向;LADD 則針對離散擴散中的因子化反向轉移導致的少步數退化問題,引入潛在增強與跨 token 相依建模;另有工作將擴散模型嵌入 offline RL 軌跡規劃,要求轉移一致性。
技術細節
LESA:Learnable Stage‑Aware Predictors
- 面向 DiTs 的推理加速:將每個時間階段的預測視為可學函數,部分階段用輕量 predictor 近似,僅在關鍵步驟調用完整模型。
- 相較簡單 feature caching 或 training‑free forecasting,更能適配具體數據與任務。
離散擴散:LADD(Latent‑Augmented Discrete Diffusion)
- 指出目前離散擴散多採用 factored reverse transitions,忽視 token‑token 依賴,在 few‑step regime 下生成品質顯著退化。
- LADD 透過 latent augmentation 在隱空間顯式建模跨 token 相依,使少步數反向仍保留整體結構。
擴散規劃與環境一致性
- 將擴散用於離線 RL 的 trajectory generation 時,若不建模環境 dynamics,易生成在真實環境不可行的軌跡。
- environment mechanism modeling 以環境轉移機制調制擴散過程,確保連續狀態與動作間的一致性。
應用場景
- 高吞吐影像與影片生成(在雲端或邊緣端減少推理步數)。
- 快速語言生成與程式生成的離散擴散模型。
- 離線 RL 中利用擴散產生安全且可執行的軌跡,用於規劃與模擬。
關鍵實體:LESA、DiTs、LADD、factored reverse transitions、environment mechanism modeling
重要性:★★★☆☆
來源: arXiv:2602.20497 | arXiv:2602.20422 | arXiv:2510.18114
解耦式因果識別與語義–統計因果發現(CausalReasoningBenchmark / DMCD)
核心摘要
因果推理研究開始從「單一數值指標」走向更貼近科學實務的流程視角。CausalReasoningBenchmark 指出現有基準多直接以 ATE 等數值評估,把「識別」與「估計」混為一談;DMCD(DataMap Causal Discovery)則結合 LLM 與統計方法,在因果結構發現中顯式分離「語義草案」與「數據驗證」。
技術細節
識別 vs 估計的解耦基準
- CausalReasoningBenchmark 主張:
- 識別:在給定假設下制定有效的研究設計(例如選擇工具變數、匹配策略、實驗設計)。
- 估計:在既定設計下,數值上實作估計(如各種估計器、調參)。
- 單一 ATE 指標無法判斷模型是「設計錯了」還是「實作做得差」,因此提出使用真實世界資料,分別評估識別與估計兩階段。
- CausalReasoningBenchmark 主張:
DMCD:語義–統計兩階段因果發現
- Phase I:LLM 根據變數元資料(描述欄、欄位關係等)生成稀疏 draft DAG,作為語義先驗。
- Phase II:在觀察資料上對該 DAG 進行統計驗證與修正,避免僅憑語言模型幻覺結構。
- 透過將 LLM 輸出限制為「稀疏先驗」,統計搜尋空間被收斂,同時保留可檢驗性。
應用場景
- 對自動化因果推理系統(含 LLM‑based)進行更細緻的基準測試與方法比較。
- 在醫療、經濟等高維觀察資料上,以 DMCD 類方法結合專家語意與統計證據進行因果結構發現。
關鍵實體:CausalReasoningBenchmark、ATE、DMCD、LLM‑guided DAG、observational data
重要性:★★★☆☆
來源: arXiv:2602.20571 | arXiv:2602.20333
工具與資源(Tools & Resources)
LLM-LD 與 vLLM:AI 可讀網站與高吞吐服務引擎
核心摘要
在應用層與推理層,同時出現兩個值得關注的基礎組件:LLM‑LD 企圖成為「AI 可讀網站」的開放標準,使網頁內容更適合 LLM 消費;vLLM 則持續作為高吞吐 LLM 服務引擎的事實標準之一,被廣泛集成於各雲端平台與專案。
技術細節
LLM‑LD
- 定位為「Open Standard for AI‑Readable Websites」,目標是定義一種標註/結構化方式,讓網站對 LLM 更友好。
- 目前公開資訊僅止於標準方向與站點,尚未披露具體 schema 或實作細節。
vLLM
- GitHub 專案標註為 high‑throughput LLM serving engine,聚焦推理時效能與資源利用率。
- 雖未在來源中細述,但其常見用途包括持久 KV cache、連續批次(continuous batching)等技術(本報告不展開未在來源中明示的細節)。
應用場景
- 內容網站標註為 LLM‑LD,提高被 agent / 搜索 /問答系統準確讀取與解析的能力。
- 自建或雲端部署推理服務時選用 vLLM 作為 serving backend,提升多用戶高併發性能。
關鍵實體:LLM‑LD、vLLM、llmld.org、vllm‑project
重要性:★★★☆☆
來源: llmld.org | vLLM GitHub
快取感知 prefill–decode 分離與 token 壓縮(Together.ai / Lattice-proxy)
核心摘要
LLM 推理成本愈發由 I/O 與記憶體主導。Together.ai 提出「cache‑aware prefill–decode disaggregation」以 40% 服務提速為目標;Lattice‑proxy 則聲稱對現有 LLM API 可實現 93% token 壓縮且作為 drop‑in 代理,皆指向「不改模型、改通路」的系統優化方向。
技術細節
cache‑aware prefill–decode disaggregation
- 觀察到 prefill(編碼上下文)與 decode(自回歸生成)在計算與記憶 pattern 上截然不同。
- 將兩者在系統層拆分並做 cache‑aware 資源配置,可減少 decode 階段因 cache miss 與不均衡造成的瓶頸。
- Together.ai 對外宣稱可達約 40% 服務加速。
Lattice‑proxy:token 壓縮代理
- 作為 LLM API 的 proxy,聲稱可對請求實現 93% token 壓縮,並以 drop‑in replacement 自居。
- 雖未披露具體壓縮演算法,但意味著在不改動下游模型的情況下,從請求層面大幅降低計費與頻寬。
應用場景
- 雲服務商與大型應用在自建推理集群時,拆分 prefill / decode 流量以更細緻調度 GPU / CPU / cache。
- 開發方透過 Lattice‑proxy 類系統,在不改上層產品與下層模型的前提下,降低 token 成本與延遲。
關鍵實體:Together.ai、prefill–decode disaggregation、Lattice‑proxy、token compression
重要性:★★★☆☆
來源: Together.ai Blog | latticeproxy.io
vLLM 在 SageMaker AI 與 Amazon Bedrock 上的多模型高效服務
核心摘要
AWS 介紹如何在 Amazon SageMaker AI 與 Bedrock 上結合 vLLM,為數十個微調後模型(含 Mixture‑of‑Experts 家族)提供高效推理服務,核心目標是降低「每模型一個 GPU 端點」造成的閒置與成本浪費。
技術細節
多模型共享 vLLM backend
- 利用 vLLM 的高吞吐 serving 能力,在單一或少數 GPU 端點上同時承載多個 fine‑tuned checkpoint。
- 對於流量低且不穩定的長尾模型,可透過共用資源顯著降低 idle GPU 成本。
面向 MoE 家族與多變體
- 案例中特別提及 Mixture‑of‑Experts 模型族,說明方案亦考慮較複雜推理 pattern。
- 文件中出現「Multi‑Low‑Rank Ada」字樣,指向在多 LoRA / 多 adapter 場景下的專門優化,細節未公開。
應用場景
- SaaS 或企業內部需要維護大量客戶專屬 / 部門專屬微調模型時,使用單一 vLLM 叢集集中服務。
- 在 Bedrock 上同時部署基礎模型與多個 LoRA/PEFT 模型變體,降低運維與計費複雜度。
關鍵實體:vLLM、Amazon SageMaker AI、Amazon Bedrock、Mixture‑of‑Experts、Multi‑Low‑Rank Ada
重要性:★★★☆☆
來源: AWS ML Blog
產業與應用動態(Industry Applications)
基於迭代策略精煉的 LLM 感覺–動作控制
核心摘要
LLM/MLLM 不再只輸出自然語言,而是直接生成將連續觀測向量映射到連續動作向量的控制策略,用作具身代理與軟體代理的決策核心。研究集中在「迭代策略精煉」框架、從自然語言生成導航/規劃約束、工具使用介面設計與推薦系統/搜尋代理的行為優化。
技術細節
Iterative Policy Refinement
- 初始策略由 LLM 根據環境與目標描述產生,接著透過互動與反饋迭代修正,逐步將抽象策略壓縮為穩定的觀測→動作映射。
- 支援連續觀測與連續動作空間,實際對接機器人或模擬器。
約束生成與規劃
- LLM 用於生成複雜空間/數學/條件約束,將自然語言需求轉為形式化規劃問題(例如路徑約束、碰撞規則、資源限制)。
代理訓練與合成資料
- 針對搜尋代理,以 entity‑centric synthetic data 進行監督,但現有 GRPO 會丟失實體層級資訊,且獎勵稀疏。
- 提示工程與微調目前仍是主流優化手段,但效果與穩定性有限。
工具使用與介面工程
- 在 web browsing、code execution、data analysis、推薦系統中,研究證實「工具描述與參數 schema 的自然語言設計」是性能瓶頸之一。
- Oracular Programming 提出以可強制合約的方式包裝工具與模組,避免 LLM 直接駕馭複雜邏輯。
評測與偏誤
- Deep Information Synthesis、BrowseComp‑V3 等新基準要求多來源資訊整合與多模態瀏覽,指出現有基準無法反映真實任務。
- LLM‑as‑a‑judge 存在系統性偏誤,對代理評估可靠性提出警告。
應用場景
- 具身機器人導航與操作(含高維度行為控制)。
- 具工具使用能力的資料分析/搜尋/客服代理。
- 生成式推薦系統(將 log verbalization 為自然語言,再交由 LLM 推理)。
- 內部內容審核與評估系統(需謹慎處理 LLM‑as‑a‑judge 偏誤)。
關鍵實體:Iterative Policy Refinement、GRPO、entity‑centric data、Oracular Programming、BrowseComp‑V3、LLM‑as‑a‑judge
重要性:★★★★☆
來源: arXiv:2506.04867 | arXiv:2602.21143 | arXiv:2602.20558
結合影像與語音之多模態人機互動與操控框架
核心摘要
多模態人機互動(HRI)正由「單一視覺或語言通道」升級為 VLM + 語音 + 模糊邏輯 + 模仿學習的綜合架構,用於提升對人類意圖的理解與複雜雙手/移動操作的可學性,同時引入測試時計憶、自我演化規劃與零‑shot 工具操作,顯著降低示範資料需求。
技術細節
多模態整合
- 以 VLM 作為 perception 與 high‑level reasoning 中樞,結合語音處理模組與模糊邏輯對人類指令與情境進行推理。
可導向模仿與 Inner Speech
- steerable imitation 與「內部語言(Inner Speech)」為機器人提供可控的行為生成通道,可在保持模仿多樣性的同時由語言指令進行調節。
MoMaGen:受軟/硬約束的雙手移動示範生成
- 在多步驟、雙手、高自由度手臂 + 移動底盤場景中,自動生成滿足「軟/硬約束」的示範,緩解遙操作資料稀缺。
測試時計憶與自我演化規劃
- 透過 test‑time memory 累積與環境互動的經驗,逐步學習摩擦、穩定性等物理特性,彌補 VLM 對細緻物理行為預測的不足。
物件中心零‑shot 工具操作(SimToolReal)
- 以 object‑centric policy 表徵工具與物件關係,搭配 sim‑to‑real,使精巧工具操作在實機上以零或少量示範達成。
類人運動生成(PMG)
- Parameterized Motion Generator 結合資料驅動學習、動作追蹤與軌跡追隨控制,生成自然的類人步態與全身動作。
應用場景
- 協作機器人在工業、生醫、服務場域中與人類共同完成多步驟雙手任務。
- 助理型機器人透過語音 + 視覺理解使用者意圖,完成日常操作。
- 類人型機器人行走與操作控制。
- 高專業度跨領域任務中的分割式人類監督,提升標註與評估可擴展性。
關鍵實體:VLM、模糊邏輯、MoMaGen、Inner Speech、SimToolReal、PMG、test‑time memory
重要性:★★★★☆
來源: arXiv:2602.20219 | arXiv:2602.20323 | arXiv:2602.16863
以盜版 Office 誘餌的 XMRig 挖礦與驅動 BYOVD 濫用
核心摘要
最新惡意活動顯示,攻擊者利用偽裝為盜版 Microsoft Office / WPS Office 的安裝檔投放客製 XMRig 挖礦程式,並結合 BYOVD(Bring‑Your‑Own‑Vulnerable‑Driver)、惡意 LNK、DLL 側載與 USB 橫向移動。控制程式與挖礦模組分離運作且具自我恢復機制,使清除難度顯著上升。
技術細節
控制程式與挖礦模組分離
- 控制程式偽裝為 Explorer.exe,透過命令列參數切換安裝、挖礦、持久化、自我清除等模式。
- 控制程式持續監控挖礦進程,一旦被終止即重新啟動,單純 kill miner 無法停用攻擊。
交付與社交工程
- 惡意安裝檔名稱與目錄結構仿造官方 Office / WPS 安裝程式,以盜版軟體作誘餌提升下載率。
BYOVD 與橫向移動
- 利用舊版驅動(如 wsftprm.sys)實作 BYOVD,繞過安全機制或獲取高權限。
- 攻擊程式可透過 USB 隨身碟擴散,搭配惡意 LNK、DLL 側載與 Shellcode 達成多向執行。
關聯 APT 活動
- Silver Fox APT 近期活動亦利用稅務/雲端發票誘餌散布 Winos 4.0(ValleyRAT)及 Gh0st 系列 RAT,顯示「常見業務文件 + 稅務場景」已成高風險入口。
應用場景
- 企業端 EDR/SIEM 需對「Explorer.exe 但帶挖礦行為」與 BYOVD 驅動載入行為設計特徵檢測。
- SOC 團隊需加強對 USB 媒介、LNK 檔與 DLL 側載鏈的監控與隔離策略。
- 對台灣等地區性稅務/發票相關郵件與可執行附件提升威脅意識。
關鍵實體:XMRig、Monero、Explorer.exe 偽裝、wsftprm.sys、BYOVD、ValleyRAT、Silver Fox
重要性:★★★★☆
來源: iThome 報導1 | iThome 報導2 | iThome 報導3
產業趨勢與觀點(Industry Trends & Insights)
Claude 與美國國防部軍用整合的技術與治理爭議
核心摘要
美國國防部對 Anthropic 的 Claude 下達硬性期限,要求接受「涵蓋軍用的全面新條款」,外界質疑可能包括用於致命性自主武器。Anthropic 至今拒絕讓步,而 OpenAI 與 xAI reportedly 已同意五角大廈新要求。Anthropic 目前被指為唯一已深入整合至機密軍事系統的前沿模型供應商,使其態度具關鍵指標意義。
核心摘要(延伸)
- 2025 年 7 月,五角大廈與 OpenAI、Google、Anthropic、xAI 各簽署最多 2 億美元合約,為期數年的前沿模型採購與整合。
- 若 Anthropic 持續拒絕,DoD 可能援引《國防生產法》或以供應鏈風險為由中止合作,凸顯政府對前沿模型存取的制度槓桿。
關鍵實體:Anthropic、Claude、OpenAI、Google、xAI、DoD、Defense Production Act
重要性:★★★★★
來源: Podcast 訪談 | iThome 報導
AI 基礎設施與資料中心擴建遭遇公共反對
核心摘要
隨著資料中心與 AI 基礎設施建設激增,多地社群與地方政府對能源使用、土地占用與環境影響的反彈升溫,部分地區已推動「禁止新建資料中心」等硬性政策,對未來 AI 訓練與推理基礎建設形成實質約束。
核心摘要(延伸)
- 報導指出,反對聲浪直接導致若干地區對新設資料中心實施 moratorium 或嚴格審批制度。
- 這與同日多則「雲服務商吸收電價上漲」「大型 GPU 採購(如 AMD‑Meta 6GW)」形成鮮明對比,顯示基礎設施擴張在政治與社會層面面臨更高摩擦。
關鍵實體:資料中心、AI 基礎設施、地方政策、新建禁令
重要性:★★★★☆
來源: TechCrunch
白宮要求 AI 公司承擔電價上漲成本
核心摘要
白宮公開要求 AI 公司與雲端 hyperscalers 承擔因 AI 用電攀升導致的電價上漲成本;TechCrunch 指出,多數大型供應商已事先承諾會吸收電費,避免直接轉嫁至終端用戶或一般居民。
核心摘要(延伸)
- 雖然報導未點名具體雲商,但在資料中心反對聲浪與電網壓力升高背景下,此舉等同將 AI 能源外部性部份「內部化」到供應商財報。
- 結合 Nvidia 強勁資料中心營收、AMD‑Meta 大規模 GPU 採購與地方新建禁令,可見未來 1–3 年 AI infra 將在「技術、資本、能源、政治」四維拉鋸。
關鍵實體:白宮、AI 公司、hyperscalers、電價上漲
重要性:★★★☆☆
來源: TechCrunch
市場動態精選(Key Market Updates)
OpenClaw 一鍵部署與 Qwen3.5/GLM-5 雲端開放權重生態
核心摘要
MiniMax 在其 Agent 平台推出 MaxClaw 模式,宣稱可對 OpenClaw 實現「真·一鍵配置」,平台已內建 1 萬+ 垂直領域專家智能體;阿里雲則同步上線 Qwen3.5、GLM‑5、MiniMax M2.5、Kimi K2.5 等多款開源模型,搭配「Coding Plan」多模型 API 與高性價比 Qwen3.5‑Flash 托管服務,加速開放權重模型的商用普及。
技術細節
MiniMax Agent 平台
- MaxClaw:面向 OpenClaw 的一鍵配置模式,使開發者可透過聊天快速構建並發布專屬助理。
- 內建超過 10,000 個垂直專家智能體,並有積分獎勵與市場化機制。
Qwen3.5 系列與雲端托管
- 新增多個中型變體(如 Qwen3.5‑35B‑A3B、122B‑A10B、27B),採混合注意力機制並宣稱在多項榜單超越上代更大模型。
- Qwen3.5‑Flash 以每百萬 token 輸入 0.2 RMB 的價格在阿里雲百煉提供托管推理,並標示可在消費級顯卡本地部署。
Coding Plan 多模型 API
- 提供 Lite / Pro 套餐,允許開發者在 Qwen3.5、GLM‑5、MiniMax M2.5、Kimi K2.5 等模型間自由切換,降低被單一模型綁定的風險。
應用場景
- 快速搭建面向具體行業(法務、稅務、醫療、教育等)的專家 Agent。
- 在成本敏感場景下,以 Qwen3.5‑Flash 作為低價高效推理 backend。
- 研發團隊以多模型 API 做 A/B 測試與動態路由。
關鍵實體:MiniMax、OpenClaw、MaxClaw、Qwen3.5、GLM‑5、Kimi K2.5、阿里雲百煉、Coding Plan
重要性:★★★★☆
來源: QbitAI 報導1 | QbitAI 報導2 | QbitAI 報導3
AMD 與 Meta:6GW Instinct GPU 與 Helios 機架級架構
核心摘要
AMD 與 Meta 達成多年合作協議,Meta 將採購最高 6GW 規模的 AMD Instinct GPU,首批 1GW 預計 2026 下半年出貨,雙方同時共同開發 Helios 機架級架構。這標誌著 AMD 正式進入大規模客製化 AI 晶片戰場,也是 Meta Compute 長期 AI 基礎設施計畫的關鍵組件。
核心摘要(延伸)
- Meta Compute 計畫目標為數十 GW,長期甚至數百 GW 級運算與能源基礎設施,以支撐所謂「個人超智慧時代」。
- Helios 機架級設計將圍繞 Instinct GPU 對電力、散熱、網路拓撲與管理平面做整體優化,形成高度整合的 rack‑scale 解決方案。
關鍵實體:AMD、Instinct GPU、Meta、Helios、Meta Compute
重要性:★★★★☆
來源: 來源1 | 來源2
Nvidia 資料中心需求推動財報持續超預期
核心摘要
Nvidia 最新季度財報再度高於華爾街預期,延續多年季季超預期記錄。公司大部分營收已來自資料中心與 AI 相關需求,在「AI 泡沫」疑慮聲中展現營收與獲利的持續韌性,財報公布後股價於盤後走高。
關鍵實體:Nvidia、資料中心、AI、華爾街
重要性:★★★☆☆
來源: The Guardian
編輯洞察(Editor’s Insight)
今日趨勢總結
今日技術線索高度集中在兩條主軸:一是「推理效能與成本」的系統性優化,從高效 CoT、GraphRAG、CHESS、LESA 到離散擴散的 LADD,顯示社群已從單純追求 benchmark 分數,轉向在固定或略增算力前提下擠出更多推理質量。強化學習後訓練(RLFT/RLVR)也沿著這一軸線進化,以 Actor‑Curator、BAPO、VESPO 等方法補上穩定性與樣本效率缺口。
第二條主軸是「agentic 化與生態系整合」。AgentOS / AISE、OpenClaw、大型雲上多模型 API、Bedrock AgentCore 以及 Google Opal 的 Agentic AI,都在把 LLM 從單一模型變成系統中的「長駐組件」。相對應的安全議題——間接提示注入、Agent‑Mediated Deception、可驗證執行日誌——開始被當作架構層面的設計問題,而不是事後補洞。
在產業面,GPU 供應與 infra 擴張呈現出「資本與政治拉扯」:AMD‑Meta 6GW、Nvidia 財報大幅受益於資料中心需求,同時地方政府與白宮分別從建設許可與能源成本兩端施壓。這將反過來影響模型訓練頻率、開源/閉源策略與地域性部署選擇。
技術發展脈絡
從高效推理與 RLFT 工作可以看出,LLM 正從「生成」走向「搜尋 + 規劃 + 驗證」綜合體:多路徑生成 + 符號驗證、GraphRAG、多步 test‑time search、對比解碼,讓模型更像在做受約束的搜尋,而不是單向 next‑token。這與 diffusion‑based 規劃與 environment mechanism modeling 在 RL 領域的動向高度類似,指向一個統一的「probabilistic planning」框架。
在系統層,vLLM、cache‑aware prefill–decode 分離、token 壓縮代理與 Peer Direct 類 NIC‑side 優化共同反映:瓶頸正從 FLOPs 轉向記憶體頻寬與 I/O。RPU 構想與 Helios rack‑scale 設計屬於同一趨勢——為推理與訓練專門優化 memory hierarchy 與 network fabric,而不是一味疊 GPU。
未來展望
短中期內,可預期高效推理技術會快速進入商用:測試時計算(contrastive decoding、search)、GraphRAG、長上下文裁剪與 fast diffusion 將會成為雲端與大客戶部署的「標配增益」。這對模型提供者意味著不必線性放大模型與算力,就能在特定推理任務上明顯拉開差距。
在治理與市場層面,軍用整合(Claude–DoD)、能源成本內部化、地方資料中心禁建,將迫使大模型供應鏈思考「多極化」與「分層部署」:邊緣/本地中型模型(如 Qwen3.5‑35B)+少數超大模型雲端服務的混合格局,可能比「一切都在雲上」更可持續。
關注清單:
- 高效推理與 test‑time search 技術在主流商用 API 中的落地節奏。
- AISE / MCP / OpenPort 等 agentic 軟體協定是否會形成事實標準。
- RLFT/RLVR 在多模態與 agent 任務上的穩定性與可重現性。
- 資料中心擴建與能源政策對訓練頻率與開源模型節奏的實際影響。
- LLM‑based 因果推理與科學發現框架(如 DMCD、具身科學)在實務領域的採用情況。
延伸閱讀與資源
深度文章推薦
- arXiv:2602.20945 — Efficient LLM Reasoning — 系統性涵蓋高效 CoT、GraphRAG、CHESS 與 test‑time search,適合作為近期推理優化的技術入口。
- arXiv:2602.20532 — ACTOR-CURATOR — 詳細介紹 policy‑improvement bandits 與自動課程學習在 RLFT 中的設計與實驗。
- arXiv:2602.20979 — Agentic Infused Software Ecosystem — 從系統架構與安全治理角度重構 LLM agent 在軟體生態中的角色。
相關技術背景
- Chain-of-Thought(CoT):透過顯式中間推理步驟提升複雜任務表現的提示與訓練技術。
- RLFT / RLVR:基於可驗證獎勵訊號對大型模型進行強化學習後訓練的範式。
- GraphRAG:以圖結構建模文件與實體關係,支援多跳檢索與推理的 RAG 變體。
- Model Context Protocol(MCP):規範模型訪問外部工具與資料時的上下文與權限協定。
- Diffusion Transformers(DiTs):將擴散過程與 Transformer 結合的生成模型架構。
- Equivariant Neural Networks:在群作用下保持等變性的網路,用於物理與材料建模。
本日關鍵詞
高效推理 GraphRAG RLFT policy-improvement bandits Agentic Skills latent CoT Diffusion Transformers cache-aware serving BYOVD 資料中心擴建
資料來源:408 篇文章 | 分析主題:80 個
資料收集時間:過去 24 小時 | 報告生成時間:2026/02/26 06:47:36 CST
