[Machine Learning Paper Reading]One-Step Image Translation with Text-to-Image ModelsIntroduction1d ago1d ago
RTDETR改進,將backbone替換為Swin Transformer隨著 Transformer 架構在計算機視覺中的應用逐漸增多,Swin Transformer 作為一種強大的多尺度特徵提取方法,被認為是現代目標檢測的理想 Backbone。在本篇文章中,我們將介紹如何在 RT-DETR 模型中替換原有的 Backbone。Nov 26, 2024Nov 26, 2024
[Machine Learning Paper Reading]Text-Driven Image Editing via Learnable Regions在本篇論文中,介紹了一種由文字提示基於區域的圖像編輯方法,無需使用者提供mask。具體來說,利用現有的預先訓練的文字到圖像模型,並引入邊界框生成器來識別與文字提示對齊的編輯區域。Nov 10, 2024Nov 10, 2024
RTDETR 可視化自注意力機制在訓練完模型後,評估其表現的好壞是非常關鍵的一步。除了傳統的評估指標,如準確率或損失函數,我們還可以深入了解模型內部的運作原理。可視化自注意力機制後的結果正是一種強大的工具,它讓我們得以「看見」模型在決策過程中如何分配注意力,並進一步和標籤 (Ground Truth, GT)…Nov 4, 2024Nov 4, 2024
[Machine Learning Paper Reading] Alpha-CLIP: A CLIP Model Focusing on Wherever You WantAlpha-CLIP是CLIP模型的增強版,在訓練時通過添加alpha通道使其能夠專注於圖像的特定區域。Alpha-CLIP不僅保留了CLIP的視覺辨識能力,而且能夠精確控制影像內容的強調。Nov 1, 2024Nov 1, 2024
[Machine Learning Paper Reading]FairCLIP: Harnessing Fairness in Vision-Language Learning在當今的科技時代,深度學習已經廣泛應用於各個領域,尤其在醫療行業,人工智慧(AI)已成為輔助醫療診斷與決策的重要工具。然而,這些AI模型中可能隱藏的偏見和不公平性可能對特定群體造成嚴重影響。例如,來自特定種族或性別的病患可能因為模型的偏見而導致錯誤的診斷或治療計劃,進而加劇醫療資…Oct 13, 2024Oct 13, 2024
[Machine Learning Paper Reading]VILA: OnPre-training for Visual Language Models隨著大語言模型(LLM)的成功,視覺語言模型(VLM)也在迅速發展。透過將視覺輸入結合到語言模型中,VLM 能夠繼承 LLM 的一些能力,例如指令跟隨、零樣本推理以及上下文學習能力,使得這些模型在多種視覺語言任務中表現出色。今天我們將深入探討 NVIDIA…Oct 12, 2024Oct 12, 2024
使用RT-DETR訓練自己的資料集經過上次介紹了RT-DETR的論文後,本篇要來介紹如何使用RT-DETR在自己的資料集上,還沒看過上一篇的,可以先點這邊。RT-DETR可以透過兩種方法來訓練和部屬,分別是使用官方版本或是透過ultralytics所整合的,本篇主要會介紹透過官方版本來訓練及部屬。Jul 22, 2024Jul 22, 2024
[Machine Learning Paper Reading]DETRs Beat YOLOs on Real-time Object Detection在過去的時間,YOLO模型一直是最著名的Real-Time Object Detection,然而,而YOLO最需要改進的是其需要使用NMS(非極大值抑制)來處理多個重疊相近的檢測框,而這會導致速度的延遲。為了解決這個問題誕生了DETR (DEtection…Jul 5, 2024Jul 5, 2024
[Machine Learning Paper Reading]AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT本論文將Transformer引入圖像領域。這是第一次在處理影像時,不使用CNN module,只使用attention。並且實驗證明了只用attention比使用CNN在影像分類上效果更好。Jun 21, 2024Jun 21, 2024