如果你曾經想過:「我能不能只用一句話,讓電腦在視頻裏自動找出所有『紅色揹包』?」或者希望在一張照片裏隨手點一下,就完成乾淨利落的分割,那 SAM3 正是為這些需求準備的。
隨着圖像與視頻數據的爆炸式增長,傳統分割方法往往需要大量標註或只能識別固定類別,難以應對複雜開放場景。SAM3 則通過統一的多模態輸入方式——文本、示例與視覺提示——讓模型能主動理解你的意圖,並在圖像與視頻中執行高精度檢測、分割與目標跟蹤。
更進一步,SAM3 還具備零樣本能力,可在未見過的類別上直接工作,並將分割能力延伸到 3D 場景,用於空間預覽、結構分析與創意編輯等任務。
對研究者、創作者乃至普通用户來説,SAM3 讓「圖像理解」第一次變得如此自然、靈活,也讓視覺交互的可能性遠遠超出以往。
教程鏈接:https://go.openbayes.com/afNLr
使用雲平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
首先點擊「公共教程」,找到「SAM3:視覺分割模型」,單擊打開。
頁面跳轉後,點擊右上角「克隆」,將該教程克隆至自己的容器中。
在當前頁面中看到的算力資源均可以在平台一鍵選擇使用。平台會默認選配好原教程所使用的算力資源、鏡像版本,不需要再進行手動選擇。點擊「繼續執行」,等待分配資源。
數據和代碼都已經同步完成了。容器狀態顯示為「運行中」後,點擊「API 地址」,即可進入模型界面。
若顯示「Bad Gateway」,這表示模型正在初始化,由於模型較大,請等待約 2-3 分鐘後刷新頁面。
本教程提供 Image Segmentation 、Video Text Prompting、Video Point/Box Prompting 三個示例供測試。模型僅支持英文輸入。
使用步驟如下:
Image Segmentation(圖像分割)
具體參數:
- Text Prompt:這裏可以輸入文本文字。
- Detection Threshold:閾值越高,檢測到的目標越少。
- Mask Threshold:閾值越高,生成的掩碼邊界更清晰、更鋭利。
Video Text Prompting(視頻文本提示)
具體參數:
- Text Prompt(s):這裏可以輸入文本文字。
- Propagate across video:點擊該按鈕,對目標進行視頻跟蹤。
Video Point/Box Prompting(視頻點/框提示)
具體參數:
- Object ID:檢測到的目標 ID。
- Point label:
-
- positive:當點擊圖片上的某個位置時,如果是 Positive,意思是:這個點屬於想分割的目標物體,請把它算進去。
- negative:當點擊圖片上的某個位置時,如果是 Negative,意思是:這個點不屬於目標物體(是背景或其他東西),請把它去掉。
- Clear old inputs for this object:是否清除之前檢測到的目標。
- Prompt type:
-
- Points:點擊視覺提示。
- Boxes:框選視覺提示。