YOLOE:Real-Time Seeing Anything
5 min readMar 13, 2025
問題陳述 (Problem Statement)
- 傳統的物件偵測與分割模型 (如 YOLO 系列) 雖然高效準確,但受限於預定義的類別,難以適應開放場景 (open scenarios)。
- 近期的開放詞彙 (open-set) 方法利用文本提示 (text prompts)、視覺提示 (visual cues) 或無提示 (prompt-free) 範式來解決此問題,但通常在性能和效率之間難以取得平衡,存在高計算需求或部署複雜性。
YOLOE 的貢獻 (Contributions)
- 提出了一個高效、統一的開放物件偵測與分割模型 YOLOE,能在單一模型中處理多種開放提示機制 (文本、視覺、無提示),實現實時的「看見一切」能力。
- 針對文本提示,提出了可重參數化的區域-文本對齊 (RepRTA) 策略。它通過一個可重參數化的輕量級輔助網絡來優化預訓練的文本嵌入,並增強視覺-文本對齊,且在推理和遷移時無額外開銷。
- 針對視覺提示,提出了語義激活的視覺提示編碼器 (SAVPE)。它採用解耦的語義和激活分支,以最小的複雜度提高視覺嵌入和準確性。
- 針對無提示場景,提出了惰性區域-提示對比 (LRPC) 策略。它利用內置的大詞彙表和特殊的嵌入來識別所有物件,避免了對大型語言模型的依賴。
- 在 LVIS 數據集上,以少了 3 倍的訓練成本和 1.4 倍的推理加速,YOLOE-v8-S 比 YOLO-Worldv2-S 提高了 3.5 AP。
- 轉移到 COCO 數據集,YOLOE-v8-L 在訓練時間少了近 4 倍的情況下,比閉集 YOLOv8-L 提高了 0.6 APb 和 0.4 APm。
方法 (Methodology)
1.模型架構 (Model Architecture):
- 基於 YOLO 架構,包括主幹網絡 (backbone)、PAN、回歸頭 (regression head)、分割頭 (segmentation head) 和物件嵌入頭 (object embedding head)。
- 物件嵌入頭的輸出通道數改為嵌入維度,而非閉集場景中的類別數。
- 利用 RepRTA 和 SAVPE 將文本和視覺提示編碼為歸一化的提示嵌入 (prompt embeddings, 𝒫)。
- 提示嵌入與錨點 (anchor points) 的物件嵌入 (object embeddings, 𝒪) 進行對比,得到類別標籤。
2.可重參數化的區域-文本對齊 (RepRTA):
- 使用 CLIP 文本編碼器獲取預訓練的文本嵌入。
- 在訓練期間,使用一個輕量級的輔助網絡 (一個 SwiGLU FFN 塊) 來增強文本嵌入,提高視覺-語義對齊。
- 訓練後,輔助網絡可以重參數化到物件嵌入頭中,形成與原始 YOLO 相同的分類頭,實現零開銷部署和遷移。
3.語義激活的視覺提示編碼器 (SAVPE):
- 將感興趣區域 (regions of interest) 形式化為掩碼 (masks)。
- SAVPE 包含兩個解耦的分支:
(1)語義分支 (Semantic Branch): 輸出與提示無關的語義特徵。
(2)激活分支 (Activation Branch): 通過將視覺提示與圖像特徵融合,生成分組的、提示感知的權重。
4.惰性區域-提示對比 (LRPC):
- 將無提示場景重新定義為檢索問題,而非生成問題。
- 訓練一個特殊的提示嵌入來尋找所有物件 (將物件視為一個類別)。
- 使用一個內置的大詞彙表進行類別檢索。
- 僅將識別出的物件的錨點與詞彙表進行匹配,避免了對所有錨點進行計算,提高了效率。
5.訓練目標 (Training Objective):
- 使用 task-aligned label assignment。
- 分類損失:二元交叉熵損失 (binary cross entropy loss)。
- 回歸損失:IoU 損失和 distributed focal loss。
- 分割損失:二元交叉熵損失。
實驗 (Experiments)
- 數據集: Objects365, GoldG, COCO, SAM生成的偽標籤。
- 評估指標: AP, APr, APc, APf, APm, FPS (TensorRT on T4 GPU, CoreML on iPhone 12)。
- 文本提示評估: YOLOE 在 LVIS 上表現出色,與 YOLO-Worldv2 相比,在更少的訓練時間下取得了更高的 AP。
- 視覺提示評估: YOLOE-v8-L 比 T-Rex2 表現更好,僅需更少的訓練數據和資源。
- 無提示評估: YOLOE-v8-L 比 GenerateU 表現更好,參數更少,推理速度更快。
- 下游遷移: YOLOE 在 COCO 上的遷移學習表現出色,無論是線性探測 (Linear Probing) 還是完全微調 (Full Tuning),都優於 YOLOv8。
- 消融實驗: 驗證了 RepRTA、SAVPE 和 LRPC 的有效性。
結論 (Conclusion)
YOLOE 是一個高效、統一的模型,集成了物件偵測和分割,支持多種開放提示機制。通過 RepRTA、SAVPE 和 LRPC,YOLOE 能夠以高性能和低成本處理文本提示、視覺提示和無提示場景,實現了實時的「看見一切」能力。