Member-only story

視覺語言模型研究報告(A Survey of Vision Language Model)

46 min readMar 14, 2025

I. 緒論 (Introduction)

大型視覺語言模型 (Vision-Language Models, VLMs) 是一種先進的多模態人工智慧系統,其核心在於結合了大型語言模型 (Large Language Models, LLMs) 的文本理解與生成能力,以及視覺編碼器 (Vision Encoders) 的圖像和影片處理能力。這種結合賦予了 LLM 「看」的能力,使其不僅能理解和生成文本,還能處理並深入理解提示 (prompt) 中提供的影片、圖像和文本輸入,並生成相應的文本回應。從本質上講,VLMs 彌合了電腦視覺 (Computer Vision) 和自然語言處理 (Natural Language Processing, NLP) 之間的鴻溝,使得機器能夠以更接近人類的方式與世界互動和理解世界。大型視覺模型 (Large Vision Models, LVMs) 作為 VLMs 的重要組成部分,專注於分析靜態圖像和影片等視覺數據。這些模型透過在龐大的數據集上進行訓練,學習識別物體和模式,這對於物體偵測 (Object Detection) 和圖像分類 (Image Classification) 等任務至關重要。LVMs 可以被視為 LLMs 在視覺領域的對應物,它們通常擁有數百萬甚至數十億的參數,使其能夠捕捉和理解複雜的視覺模式。值得注意的是,VLMs 展現出良好的零樣本學習 (Zero-shot Learning) 能力,這意味著它們在未經特定微調的情況下,也能很好地泛化到新的任務和不同的圖像類型,包括文件和網頁等。這種能力尤其具有影響力,它表明這些模型在預訓練階段已習得高度通用的視覺和語言理解能力。

VLMs 的重要性在於它們能夠有效地彌合視覺和語言資訊之間的鴻溝,將過去需要兩個獨立 AI 模型處理的不同模態整合到一個統一的模型中。這種整合不僅簡化了系統架構,還提升了處理複雜多模態任務的效率和能力。目前,VLMs 正在深刻地重塑電子商務、社交媒體和醫療保健等多個產業。透過連結視覺和文本數據,VLMs 使得人機互動更加直觀,為各行各業帶來了創新的應用。例如,在電子商務領域,VLMs 可以自動生成產品圖像的詳細描述,極大地提升了用戶體驗和搜尋效率。在醫療保健領域,VLMs 可以協助分析醫學影像,為醫生提供第二意見和異常偵測,從而改善診斷的準確性和效率。這些廣泛的應用表明,整合視覺和語言理解是 AI 系統發展的基石,具有深遠的影響。

視覺語言模型 (VLM) 的概念並非一蹴可幾,其發展歷程可以追溯到 2015 年左右,當時研究人員開始探索結合視覺和語言模型的方法。然而,VLMs 真正開始受到廣泛關注和研究,並展現出強大能力,是在 2020–21 年間,隨著 OpenAI 的 CLIP (Contrastive Language-Image Pre-training) 和 Google 的 ALIGN 等具有里程碑意義的模型出現。據我們所知,最早探討這一領域的學術論文發表於 2015 年。VLMs…

--

--

No responses yet