當視覺模型開始「懂你所指」：SAM3 的能力遠超你想象詳情 - 人工智能,深度學習,自然語言處理,教程,機器學習小白獅ww 博客

如果你曾經想過：「我能不能只用一句話，讓電腦在視頻裏自動找出所有『紅色揹包』？」或者希望在一張照片裏隨手點一下，就完成乾淨利落的分割，那 SAM3 正是為這些需求準備的。
隨着圖像與視頻數據的爆炸式增長，傳統分割方法往往需要大量標註或只能識別固定類別，難以應對複雜開放場景。SAM3 則通過統一的多模態輸入方式——文本、示例與視覺提示——讓模型能主動理解你的意圖，並在圖像與視頻中執行高精度檢測、分割與目標跟蹤。
更進一步，SAM3 還具備零樣本能力，可在未見過的類別上直接工作，並將分割能力延伸到 3D 場景，用於空間預覽、結構分析與創意編輯等任務。
對研究者、創作者乃至普通用户來説，SAM3 讓「圖像理解」第一次變得如此自然、靈活，也讓視覺交互的可能性遠遠超出以往。

教程鏈接：https://go.openbayes.com/afNLr
使用雲平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

首先點擊「公共教程」，找到「SAM3：視覺分割模型」，單擊打開。

頁面跳轉後，點擊右上角「克隆」，將該教程克隆至自己的容器中。

在當前頁面中看到的算力資源均可以在平台一鍵選擇使用。平台會默認選配好原教程所使用的算力資源、鏡像版本，不需要再進行手動選擇。點擊「繼續執行」，等待分配資源。

數據和代碼都已經同步完成了。容器狀態顯示為「運行中」後，點擊「API 地址」，即可進入模型界面。

若顯示「Bad Gateway」，這表示模型正在初始化，由於模型較大，請等待約 2-3 分鐘後刷新頁面。
本教程提供 Image Segmentation 、Video Text Prompting、Video Point/Box Prompting 三個示例供測試。模型僅支持英文輸入。
使用步驟如下：
Image Segmentation（圖像分割）

具體參數：

Text Prompt：這裏可以輸入文本文字。
Detection Threshold：閾值越高，檢測到的目標越少。
Mask Threshold：閾值越高，生成的掩碼邊界更清晰、更鋭利。

Video Text Prompting（視頻文本提示）

具體參數：

Text Prompt(s)：這裏可以輸入文本文字。
Propagate across video：點擊該按鈕，對目標進行視頻跟蹤。

Video Point/Box Prompting（視頻點/框提示）

具體參數：

Object ID：檢測到的目標 ID。
Point label：
- positive：當點擊圖片上的某個位置時，如果是 Positive，意思是：這個點屬於想分割的目標物體，請把它算進去。
- negative：當點擊圖片上的某個位置時，如果是 Negative，意思是：這個點不屬於目標物體（是背景或其他東西），請把它去掉。
Clear old inputs for this object：是否清除之前檢測到的目標。
Prompt type：
- Points：點擊視覺提示。
- Boxes：框選視覺提示。

小白獅ww 博客

小白獅ww 博客

博客 / 詳情

當視覺模型開始「懂你所指」：SAM3 的能力遠超你想象

發佈評論

Product

Company

Support

Company

博客 / 詳情

當視覺模型開始「懂你所指」：SAM3 的能力遠超你想象

發佈 評論

發佈評論