你試過和聾啞人聊天嗎? 我試過——在醫院的掛號窗口,一位聾啞大叔用手語比劃了半天,我和工作人員面面相覷,最後他默默掏出手機,打字:“我想掛號”。 那一刻我意識到:我們生活在同一個世界,卻彷彿隔着兩個次元。
中國有2800萬聽障人士,手語翻譯師卻只有1萬名。 供需比 2800 : 1。 一台專業手語翻譯機要6000-12000元,普通人根本看不懂手語。
於是我冒出一個想法:能不能用AI,讓手機變成“雙向翻譯官”? 聾啞人打手語,AI實時轉語音+字幕;對方説話,AI轉文字+手語動畫。 0新增設備,0溝通成本。
作為一個沒寫過AI模型的前端仔,我打開了Comate Zulu,開始了這場“無聲革命”。
01 我不是在做夢吧?10分鐘搭出一個“雙向翻譯系統”
我打開Comate Zulu,第一句話就説:“我要做一個讓聾啞人和普通人無障礙溝通的小程序,你幫我從0開始寫。”
沒想到,Zulu沒讓我失望:
· 前端頁面?寫了。
· 手語識別模型調用?寫了。
· 語音轉文字+手語動畫?也寫了。
全程我沒敲一行代碼,10分鐘後,我把項目跑起來了。 那一刻我有點恍惚:這就是AI編碼時代的“工業革命”嗎? 我只是一個提需求的人,Zulu是那個默默寫代碼的“無聲譯手”。
02 早期人類“奴役”AI實錄:我是怎麼一步步造出「SilentSign」的
2.1 基本架構:微信小程序 + 文心4.5 全開源
我告訴Zulu:“我們要做一個微信小程序,用攝像頭識別手語,實時轉語音和字幕;反向也要能把對方説的話轉成手語動畫。”
Zulu迅速給出了架構:
✅ 微信小程序 + Web端雙端
· 利用 WebGL 加速,前端直接跑手語識別模型
· 支持安卓 8+ / iOS 12+,無需額外硬件
✅ 文心4.5「手語-語義」視覺模型
· 輸入 224×224 視頻流,輸出結構化語義
· 支持中國手語(CSL)1500個常用手勢
· 連續句子識別,平均字準率
✅ 語音輸出 & 字幕
· 文心4.5 TTS 聲音復刻,5種青年音色可選
· 中英雙語字幕,透明度可調
✅ 反向:語音 → 手語動畫
· 微信實時錄音 → 文心4.5 流式 ASR → 文字
· 文字驅動 3D 手語動畫(開源 Blender 模型)
· 表情符號同步顯示,增強情感表達
✅ 隱私與離線能力
· 手語視頻流僅前端推理,不落盤
· 10條常用手語離線包(醫院/銀行/購物),無網也能用
2.2 優化過程:從“能用”到“好用”
第一版雖然能跑,但離“實用”還差得遠。 我又對Zulu提了幾個關鍵需求:
“手語識別速度要快,最好實時反饋。” → Zulu優化了模型推理邏輯,前端識別延遲
“手語動畫要自然,最好帶表情。” → Zulu引入了表情符號同步機制,開心/着急都能體現
“離線場景也要能用,比如醫院沒網的時候。” → Zulu打包了10個常用場景的離線手語包
仍然是一行代碼沒寫,這個“無聲譯手”已實現:
✅ 手語 → 口語(速度提升15倍) ✅ 口語 → 手語(理解率提升3倍) ✅ 設備成本↓100%(現有手機即可) ✅ 雙向溝通 0 門檻
效果如下圖⬇️⬇️
03 感受:AI 編碼,真的能改變社會
這是我第一次感受到:代碼,原來可以這麼有温度。
之前我也用過其他AI編程工具,比如Cursor,反應確實快,但經常改出一堆bug。Zulu 不一樣,它對需求和bug的改動基本都是有效的,雖然生成速度沒那麼激進,但穩定性讓人放心。
最重要的是:Zulu 是 VS Code 插件,切換方便,不用改太多配置,特別適合我這種“想法比代碼多”的前端仔。
適合場景:
· 真香:有社會價值的創意項目,技術棧不熟但想快速驗證
· 勸退:祖傳項目填坑(AI也救不了屎山代碼)
如果你也想用AI做點有意義的事:
· 下載途徑一:百度搜索“文心快碼”,官網下載
· 下載途徑二:VS Code 或 Jetbrains IDE 搜索“文心快碼”插件
——————————————————讓技術,成為溝通的橋樑,而不是壁壘。
Github鏈接:https://github.com/yanxuefengyan/ccf_SilentSign
想用AI編碼改變世界? 關注“Comate編碼助手吧”⬇️⬇️ 一起玩轉AI編程!