PinnedPyTorch深度學習工具箱本文把文章標題取名成PyTorch深度學習工具箱的用意是在於: 日常在進行PyTorch模型訓練的時候,如果想知道模型的好壞,我們會用不少方式去評估。例如:Confusion Matrix、per class accuracy、F1…Jul 6, 2021Jul 6, 2021
Chain of Thought Prompting(思維鏈提示技術)Chain of Thought (CoT) Prompting 起源於 2022 年 Google 研究團隊的開創性論文,該技術首次系統性地提出「透過讓模型模仿人類逐步推理過程」來提升大型語言模型(LLM)解決複雜邏輯推理和數學問題的能力。相6h ago6h ago
Functional API in LLMs隨著大型語言模型(LLM)的應用範圍擴展,研究人員開始探索如何讓 LLM 直接與外部系統交互,以執行更複雜的任務。2023 年,OpenAI 在 GPT-4 中引入了 Function Calling(函數調用)機制,使 LLM 能夠根據自然語言輸入,動態選擇適當的 API2d ago2d ago
學術論文比較分析:VideoChat-Flash (VCF) vs. InternVideo2.5 (IV2.5)VCF更側重於對效率有極高要求的長影片應用場景,例如雲端長影片處理、低資源設備上的長影片分析等。IV2.5 的潛在應用與未來方向: 更側重於 對視覺感知精度有較高要求的影片應用場景,例如智慧監控、精細化影片分析、人機互動等。3d ago3d ago
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling本論文的核心概念是層次化影片Token壓縮 (Hierarchical video token Compression, HiCo)。HiCo 是一種創新的方法,旨在解決多模態大型語言模型 (MLLMs) 在處理極長影片時面臨的效率瓶頸。3d ago3d ago
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling本論文最核心的概念是「長且豐富的上下文建模 (Long and Rich Context Modeling, LRC)」。這指的是提升多模態大型語言模型 (MLLM) 在處理視訊時,對於時間維度更長、資訊內容更細緻的上下文資訊的理解和利用能力。3d ago3d ago
視覺語言模型研究報告(A Survey of Vision Language Model)大型視覺語言模型 (Vision-Language Models, VLMs) 是一種先進的多模態人工智慧系統,其核心在於結合了大型語言模型的文本理解與生成能力,以及視覺編碼器 (Vision Encoders) 的圖像和影片處理能力。彌合了電腦視覺和自然語言處理之間的鴻溝。4d ago4d ago
YOLOE:Real-Time Seeing AnythingYOLOE 是一個高效、統一的模型,集成了物件偵測和分割,支持多種開放提示機制。通過 RepRTA、SAVPE 和 LRPC,YOLOE 能夠以高性能和低成本處理文本提示、視覺提示和無提示場景,實現了實時的「看見一切」能力。5d ago5d ago
HypernetworksHypernetworks(超網絡)最早由 Ha et al. (2016) 提出,旨在透過一個「輔助神經網絡」來生成另一個神經網絡的權重。這一概念最初用於強化學習和遷移學習,但隨著大型語言模型(LLM)的發展,Hypernetworks…5d ago5d ago
Sparse TransformersTransformer 模型自 2017 年問世後,成為大型語言模型(LLM)的核心技術。然而,其自注意力機制(Self-Attention) 計算複雜度為 O(n²),導致長文本處理時計算成本極高。為解決此問題,研究人員開始開發 Sparse Transformers6d ago6d ago