博客 / 詳情

返回

當視覺模型開始「懂你所指」:SAM3 的能力遠超你想象

如果你曾經想過:「我能不能只用一句話,讓電腦在視頻裏自動找出所有『紅色揹包』?」或者希望在一張照片裏隨手點一下,就完成乾淨利落的分割,那 SAM3 正是為這些需求準備的。
隨着圖像與視頻數據的爆炸式增長,傳統分割方法往往需要大量標註或只能識別固定類別,難以應對複雜開放場景。SAM3 則通過統一的多模態輸入方式——文本、示例與視覺提示——讓模型能主動理解你的意圖,並在圖像與視頻中執行高精度檢測、分割與目標跟蹤。
更進一步,SAM3 還具備零樣本能力,可在未見過的類別上直接工作,並將分割能力延伸到 3D 場景,用於空間預覽、結構分析與創意編輯等任務。
對研究者、創作者乃至普通用户來説,SAM3 讓「圖像理解」第一次變得如此自然、靈活,也讓視覺交互的可能性遠遠超出以往。

教程鏈接:https://go.openbayes.com/afNLr
使用雲平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

首先點擊「公共教程」,找到「SAM3:視覺分割模型」,單擊打開。

圖片

頁面跳轉後,點擊右上角「克隆」,將該教程克隆至自己的容器中。

圖片

在當前頁面中看到的算力資源均可以在平台一鍵選擇使用。平台會默認選配好原教程所使用的算力資源、鏡像版本,不需要再進行手動選擇。點擊「繼續執行」,等待分配資源。

圖片

圖片

數據和代碼都已經同步完成了。容器狀態顯示為「運行中」後,點擊「API 地址」,即可進入模型界面。

圖片

若顯示「Bad Gateway」,這表示模型正在初始化,由於模型較大,請等待約 2-3 分鐘後刷新頁面。
本教程提供 Image Segmentation 、Video Text Prompting、Video Point/Box Prompting 三個示例供測試。模型僅支持英文輸入。
使用步驟如下:
Image Segmentation(圖像分割)

圖片

具體參數:

  • Text Prompt:這裏可以輸入文本文字。
  • Detection Threshold:閾值越高,檢測到的目標越少。
  • Mask Threshold:閾值越高,生成的掩碼邊界更清晰、更鋭利。

Video Text Prompting(視頻文本提示)

圖片

具體參數:

  • Text Prompt(s):這裏可以輸入文本文字。
  • Propagate across video:點擊該按鈕,對目標進行視頻跟蹤。

Video Point/Box Prompting(視頻點/框提示)

圖片

具體參數:

  • Object ID:檢測到的目標 ID。
  • Point label:
    • positive:當點擊圖片上的某個位置時,如果是 Positive,意思是:這個點屬於想分割的目標物體,請把它算進去。
    • negative:當點擊圖片上的某個位置時,如果是 Negative,意思是:這個點不屬於目標物體(是背景或其他東西),請把它去掉。
  • Clear old inputs for this object:是否清除之前檢測到的目標。
  • Prompt type:
    • Points:點擊視覺提示。
    • Boxes:框選視覺提示。
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.