[Machine Learning Paper Reading] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

泓宇
8 min readJust now

--

Alpha-CLIP是CLIP模型的增強版,在訓練時通過添加alpha通道使其能夠專注於圖像的特定區域。Alpha-CLIP不僅保留了CLIP的視覺辨識能力,而且能夠精確控制影像內容的強調。

Introduction

原始CLIP模型在提取整體圖像的語義細節方面表現優異,但在特定區域的聚焦方面有困難,特別是在需要精確區域理解或編輯的任務中。本文中提出了添加一個輔助的alpha通道輸入,使其能更好地關注由用戶通過點、筆劃或遮罩指定的區域,同時保留對上下文的感知能力。

Method

Alpha-CLIP的數據生成以及模型架構,分為兩個主要子部分:

  • RGBA區域-文本對的生成 (RGBA Region-Text Pair Generation)
  • Alpha-CLIP 模型架構 (Alpha-CLIP Model Architecture)

RGBA Region-Text Pair Generation

為了讓CLIP能夠接受額外的alpha通道作為輸入,並進行區域關注的學習,首先需要生成數量龐大的RGBA區域-文本對作為訓練數據。本部分介紹了如何設計數據生成管道以創建數類數據對。數據生成的過程主要分為兩個部分:定位數據生成管道(Grounding Data Pipeline)和分類數據生成管道(Classification Data Pipeline)。

  1. Grounding Data Pipeline
  • 自然圖像來源於GRIT數據集,其中GRIT使用GLIP和CLIP自動提取包含邊界框的區域-文本對。在此基礎上,進一步使用SAM(Segment Anything Model)自動生成高質量的假遮罩(pseudo-mask)來覆蓋每個邊界框區域,形成更加精細的區域標註。這樣可以讓生成的圖像中包含具有前景(alpha通道)的特定區域以及相應的文本描述,使模型可以學習在不同區域之間進行精確的語義關聯。

2. Classification Data Pipeline

  • 主要針對前景對象進行生成,將其放置在乾淨的背景中進行標註,主要是為了生成區域-文本對,以突出前景對象。自然圖像選自ImageNet數據集。首先,使用SAM模型自動生成每個ImageNet圖像的遮罩。然後,對每個遮罩的前景對象進行裁剪,將其放置在畫布中央,並進行放大。接著使用BLIP-2來為這些遮罩生成描述,以確保每個前景遮罩的標註不僅僅是ImageNet的類別標籤,還包括更豐富的圖像特有描述。最終生成包含ImageNet類別標籤和由BLIP-2生成的圖像特定標註的數百萬RGBA區域-文本對。

Alpha-CLIP

Alpha-CLIP通過對CLIP圖像編碼器進行結構修改,以接受包含alpha通道的輸入,同時保留CLIP的原有知識。這部分描述了模型結構的變更以及訓練方法

  1. Model Structure
  • 在CLIP圖像編碼器的ViT結構中,第一層為RGB卷積層來處理圖像。Alpha-CLIP在此基礎上引入了一個與RGB卷積層並行的Alpha卷積層,使CLIP圖像編碼器可以接受額外的alpha通道輸入。

2. Training method

  • 在訓練過程中,CLIP文本編碼器保持不變,整個Alpha-CLIP圖像編碼器進行訓練。相較於處理alpha通道輸入的第一層卷積層,對隨後的Transformer塊使用了較低的學習率。為了保持CLIP對完整圖像的全局識別能力,訓練過程中採用了特定的數據抽樣策略。在訓練過程中,偶爾會將生成的RGBA-文本對替換為原始圖像-文本對,並將alpha通道設置為全1(代表整個圖像),這樣可以保持對完整圖像的識別能力。

3. Alpha-CLIP for downstream tasks

  • 訓練完成後,Alpha-CLIP具有關注指定區域和進行受控編輯的能力。它能夠以“即插即用”的方式增強CLIP在各種下游任務中的性能,包括圖像識別、多模態大模型、以及2D/3D圖像生成等應用。

Experiments

這一部分展示了Alpha-CLIP在不同下游任務中的性能,包括圖像識別、指代表達理解 (REC)、開放詞彙檢測 (OVD)、多模態大模型 (MLLM)、2D圖像變化、以及3D物體生成。通過這些實驗,全面評估Alpha-CLIP相較於原始CLIP以及其他基準方法的優勢。

Alpha-CLIP in Image Recognition

測試數據集選擇了ImageNet-S來進行零樣本分類分析。該數據集包含919個具有語義分割標註的類別。

結果顯示,當Alpha-CLIP提供一個前景遮罩作為alpha通道時,它可以生成更專注於前景對象的視覺特徵,比原始CLIP和其他基準方法在圖像級別分類上有更好的表現。

Zero-shot referring expression comprehension

指代表達理解 (REC) 是在給定一段文本描述的情況下,定位圖像中的特定對象。零樣本REC表示模型在未經過訓練的情況下執行該任務。選擇了RefCOCO、RefCOCO+ 和 RefCOCOg當作測試數據集進行評估。

Open vocabulary detection

OVD的目標是在未經訓練的情況下檢測圖像中的新類別。使用了Detic模型作為基準,該模型採用ImageNet數據集來進行半監督檢測。

Alpha-CLIP in MLLM

將Alpha-CLIP與BLIP-2和LLaVA-1.5等多模態模型結合,用於區域描述生成(region-level captioning)和視覺問答(VQA)。

  • Region level captioning
    簡單地用Alpha-CLIP替換原本的CLIP,就能使多模態模型在圖像-文本任務中更好地聚焦於用戶指定的區域。
  • Region Based VQA
    在視覺問答場景中,alpha通道作為視覺提示用來突出特定區域,這使得模型能夠更好地進行區域級別的推理和理解。

Alpha-CLIP in image variation

Alpha-CLIP能夠應用於大多數基於CLIP圖像編碼器的2D圖像變化模型中,如BLIP-Diffusion。使用Alpha-CLIP替換BLIP-Diffusion中的ViT-L/14模型,並設置空文本提示,使得結果與語義無關。

Alpha-CLIP能夠在指定區域進行變化的同時保留原有的背景信息,並產生更乾淨且保持上下文的圖像變化結果。且與其他基於區域聚焦的CLIP方法(如裁剪、像素級遮罩、紅圈標註等)相比,Alpha-CLIP能夠在不丟失上下文的情況下,針對性地生成更好的結果。

CLIP in 3D generation

應用於兩種不同方法

  1. Diffusion-Based Object Generation
    使用Point-E模型進行單圖像生成3D點雲的實驗,並用Alpha-CLIP替換原始CLIP來提高生成結果的品質。

當物體生成過程中部分缺失時,用戶可以通過在條件圖像上突出缺失部分來幫助擴散模型彌補缺失部分。此外,用戶可以通過在2D圖像上突出需要強調的部分來影響3D點雲生成的重點。

2. Optimization-Based 3D Object Generation
使用PureCLIPNeRF模型進行文本到3D生成的優化,測試Alpha-CLIP是否能改進優化結果

相比於原始CLIP,使用Alpha-CLIP在進行神經場優化時能生成更符合文本描述的物體,且物體的整體一致性和審美品質都有顯著提升。

Conclusion

在這篇論文中,作者提出了一種名為 Alpha-CLIP 的模型,通過添加 alpha 通道 來擴展原有的 CLIP 模型,從而實現對圖像中特定區域的關注和控制。這使得模型在多種下游任務中具備了更強的區域感知能力,並且在各種應用中均表現出色。

--

--

泓宇

Specialist in machine learning, image processing, computer vision, and object recognition.