tag 語音識別

標籤
貢獻20
69
08:20 AM · Nov 17 ,2025

@語音識別 / 博客 RSS 訂閱

月光傾城美 - 人工智能 - 【國產MCU移植】手把手教你製作國產MCU的BSP-

在智能家居、工業控制及便攜設備領域,語音交互正成為人機界面的重要發展方向。針對離線語音識別需求,基於國產32位MCU的解決方案日益成熟,其中以CH32V307等為代表的32位MCU芯片,憑藉高集成度與專用優化,為嵌入式設備提供了可靠、低成本的語音識別選擇。 該語音識別方案依託CH32V307國產32位MCU,採用RISC-V內核並支持RVV1.0向

32位MCU , 單片機 , 後端開發 , 嵌入式硬件 , harmonyos , 語音識別

收藏 評論

mob64ca14137e4f - OCR文字識別 少數民族文字識別 國外文字識別

📖 引言 在全球化的今天,多語言處理已經成為現代應用的標配。然而,當我將目光投向小語種——特別是維吾爾語時,發現技術資源異常匱乏。這篇文章將深入探討我如何從零開始構建一個高精度的多語言識別系統,重點解決維吾爾語識別這一技術難題。 為什麼寫這篇文章? 在開發「izdax 語音克隆平台」時,我面臨一個棘手的問題: 如何準確識別用户輸

後端開發 , 人工智能 , 維吾爾語 , unicode , 語音識別 , Python

收藏 評論

mob64ca1409d8ea - 麥克風陣列定位深度學習代碼

亞馬遜Echo和谷歌Home爭奇鬥豔,除了雲端服務,他們在硬件上到底有哪些差異?我們先將Echo和Home兩款音箱拆開來看,區別最大的還是麥克風陣列技術。Amazon Echo採用的是環形6+1麥克風陣列,而Google Home(包括Surface Studio)只採用了2麥克風陣列。這種差異我們在文章《對比Amazo

信號處理 , 語音信號 , 人工智能 , 深度學習 , 麥克風陣列定位深度學習代碼 , 語音識別

收藏 評論

上海拔俗網絡 - AI 多語種溝通實訓平台:讓語言學習有了 “智能陪練”

提到多語種學習,很多人都有 “不敢説、沒人練” 的困擾 —— 對着課本背語法容易,想開口和外國人對話卻犯怵。而 AI 多語種溝通能力實訓平台,就像一位 24 小時在線的 “智能陪練”,靠實實在在的技術,把 “啞巴外語” 變成 “流利對話”,背後藏着一套讓學習更高效的技術邏輯。 這個平台能實現 “隨時隨地練溝通”,核心靠三大技術支柱:實時語音交互技術、多語種理解與生成模型、個性化反饋算

生成模型 , NLP , 人工智能 , 語音合成 , 語音識別

收藏 評論

小慕先森 - 基於大數據的智能輔助系統

智能家居(Smart Home)系統通過集成各種設備(如燈光、温控、安防、家電等),使用物聯網(IoT)技術和人工智能(AI)來提升家居生活的便捷性、舒適性和安全性。AI在智能家居中的應用可以包括自動化控制、語音識別、智能推薦等。 在這個示例中,我們將展示如何使用Python來創建一個簡單的智能家居系統,其中包括語音控制家居設備的功能(如打開/關閉燈光、調節温度等)。我們將

初始化 , 智能家居 , Css , 前端開發 , 語音識別 , HTML

收藏 評論

jordana - 權限控制_多租户系統設計之權限控制_weixin

Uberi/speech_recognition多租户架構:隔離與資源分配方案 在企業級語音識別應用中,多租户(Multi-Tenancy)架構面臨着數據隔離、資源競爭和識別精度平衡的核心挑戰。Uberi/speech_recognition作為一款支持多引擎的Python語音識別庫,通過模塊化設計和靈活配置機制,為構建多租户系統提供了基礎

多租户 , 大數據 , hadoop , 語音識別 , Git

收藏 評論

網絡小墨舞風 - 語譜圖的在語音識別中的應用

tacotron論文解讀 tacotron是第一個端到端TTS模型 輸入:raw text 輸出:mel-spectrogram圖(梅爾頻譜圖) 利用Grilffin-Lim聲碼器將mel-spectrogram轉為wav 名詞解釋 1. mel-spectrogram 梅爾倒譜圖 在音頻

語譜圖的在語音識別中的應用 , MEL , 算法 , NLP , 人工智能 , 語音識別

收藏 評論

上海拔俗網絡 - AI模擬面試系統:求職路上的“智能陪練”

不少求職者都有過這樣的尷尬:背了一堆面試題,一面對考官就大腦空白;明明有能力,卻因表達不清晰、邏輯混亂錯失機會。而AI模擬面試系統,就像一位24小時在線的“面試教練”,用技術還原真實面試場景,幫你查漏補缺,讓求職底氣翻倍。 這個系統能實現“實戰模擬”,核心靠四大技術撐起場面。首先是自然語言處理(NLP)的“聽懂”與“提問”能力——它能像真實面試官一樣,根據你的崗位和簡歷精準發問。比如

機器學習 , NLP , 人工智能 , 查漏補缺 , 語音識別

收藏 評論

智能領航員 - 中文文本處理簡要介紹

在自然語言處理應用中,文本標準化與逆向文本標準化是提升系統準確性的關鍵環節。WeTextProcessing作為一款生產級的開源工具包,專門解決文本預處理中的規範化問題,為語音識別後處理、機器翻譯等場景提供可靠支撐。 項目亮點:四大核心優勢 生產級穩定性:經過大規模實際項目驗證,處理準確率達到98%以上,支持高併發場景下的穩定運行。 多語言覆蓋:原生支持

搜索 , text , Css , 前端開發 , 語音識別 , HTML

收藏 評論

mob64ca1413c518 - 黑豹X2的docker

隨着成都車展的開展,第七款國產車型創新BMW X2亮相,意味着進口創新BMW X2將逐漸退出人們的視線。今天就帶領大家回顧一下進口創新BMW X2。 ? 個性化的創新BMW X2以獨特的SAC設計概念,將越野風格與轎跑氣質相融合。充滿力量感的造型和輪廓,展現了轎跑車的運動氣質。驕人的車身比例與獨立的創新設計令人印象深刻。 上窄下寬的梯形

雲計算 , 黑豹X2的docker , 無線連接 , apple , Docker , 語音識別

收藏 評論

上海拔俗網絡 - AI 病史採集系統:讓看病 “第一步” 更省心

去醫院看病,不少人都有過這樣的尷尬:面對醫生 “以前有沒有慢性病?”“吃沒吃過特殊藥物?” 的提問,要麼緊張得記不清細節,要麼絮絮叨叨説不到重點。這不僅讓醫生花大量時間梳理信息,還可能因為漏説關鍵病史影響診斷。而 AI 病史採集系統,就像給醫患雙方配了個 “貼心幫手”,靠三項實用技術,把病史採集變得又快又準。 首先是智能語音問答技術,幫患者 “順暢説病史”。以前填病史要對着複雜表格逐

NLP , 智能語音 , 人工智能 , 結構化 , 語音識別

收藏 評論

北京數據堂 - 71 種語言 + 125 種口音識別!AI 精準翻譯背後的數據力量!

當網易有道詞典“AI同傳”累計用户突破2000萬,支持71種語言互譯、精準識別125種口音,還能實現專業術語優化時,這不僅是一款產品的里程碑,更標誌着AI翻譯正在從“淺層轉譯”向“深度理解”加速演進。在全球化溝通日益頻繁的今天,AI翻譯正成為打破語言壁壘的核心力量,而這份亮眼成績的背後,是技術對多重挑戰的攻克,更是高質量數據的堅實支撐。 一

數據集 , 平行語料 , 發音詞典 , 有道翻譯 , 人工智能 , 深度學習 , 語音識別

收藏 評論

mb6890178244a4e - 語音控制設備

智能家居(Smart Home)系統通過集成各種設備(如燈光、温控、安防、家電等),使用物聯網(IoT)技術和人工智能(AI)來提升家居生活的便捷性、舒適性和安全性。AI在智能家居中的應用可以包括自動化控制、語音識別、智能推薦等。 在這個示例中,我們將展示如何使用Python來創建一個簡單的智能家居系統,其中包括語音控制家居設備的功能(如打開/關閉燈光、調節温度等)。我們將

雲平台 , 初始化 , 智能家居 , 雲計算 , 語音識別

收藏 評論

編程夢想實現家 - 語音識別的基本原理是什麼,語音識別流程分為哪幾步?_語音識別的過程是什麼?語音識別的方法有哪幾種?

語音識別的信號處理流程涉及從原始聲波到可識別文本的轉換,其軟硬件分工明確,協同完成降噪、特徵提取、模型推理等任務。以下是詳細的信號處理流程及軟硬件職責劃分: 一、語音識別信號處理流程 1. 信號採集與預處理 步驟: 麥克風拾音:通過麥克風陣列(如6-8通道)採集環境聲音,轉換為模擬電信號。 模數

信號處理 , 硬件加速 , 人工智能 , Css , 前端開發 , 語音識別 , HTML

收藏 評論

mb6923acc0735dc - 鴻蒙AI實戰之語音識別:語音喚醒、指令識別與語音合成核心代碼解析

引言:全場景語音交互的技術基石 在萬物互聯的智能時代,語音成為最自然的人機交互方式。HarmonyOS通過完整的語音技術棧,為開發者提供了從喚醒、識別到合成的全鏈路能力。無論是智能家居的"一句話控制",還是車載系統的"語音導航",亦或是運動健康應用的"語音反饋",都建立在可靠的語音技術基礎上。本文將深入解析HarmonyOS語音技術的三大核心模塊:語音喚醒、指令識別與語音合

移動開發 , 初始化 , 離線 , Android , 語音識別

收藏 評論

laojean - whisper數據庫 - 摩雲菜的個人空間 -

Whisper-large-v3數據管道:實時數據流處理架構 痛點:傳統ASR系統難以應對實時音頻流處理 你還在為語音識別系統的實時性而煩惱嗎?面對持續不斷的音頻流,傳統的批處理模式往往導致延遲過高、資源浪費嚴重。Whisper-large-v3作為OpenAI最新的語音識別模型,其強大的實時數據處理能力能夠徹底解決這一痛點。 讀完本文

批處理 , 數據 , 前端開發 , 語音識別 , Javascript

收藏 評論

mob64ca13f937ae - AI 開發不僅僅是算法訓練,六節課幫你快速瞭解地平線 AI 軟硬件產品開發全過程 - 極術社區

隨着人工智能技術的快速發展,AI玩具已經從簡單的語音交互升級為具備情感識別、自適應學習、多模態交互等能力的智能夥伴。本文將從核心技術、系統架構、開發挑戰等方面,深入分析AI玩具開發技術。 一、AI玩具的核心技術組成 AI玩具的開發涉及多個技術領域,主要包括: 1. 語音交互技術 自動語音識別(ASR) 用

架構 , 後端開發 , 系統架構 , 人工智能 , 解決方案 , 語音識別 , Python

收藏 評論

全極世界 - 阿里開源0.8B語音識別模型fun-asr,性能直逼12B巨頭,語音AI迎來效率革命

近日,阿里巴巴通義團隊開源了Fun-ASR-Nano-2512和Fun-CosyVoice3-0.5B-2512兩款語音AI模型。前者是輕量級語音識別模型,後者是多語言語音合成模型,共同構成端側“聽+説”閉環方案。此次開源的核心看點在於,僅0.8B參數的Fun-ASR-Nano在多項評測中性能接近12B參數的頂級模型。

機器學習 , 數據 , 多語言 , 人工智能 , 語音識別

收藏 評論

代碼天地 - 基於Dify實現語音識別過程記錄

Dify支持語音識別,但是前提是需要本地部署音頻識別模型並開放對應的API接口。這裏把該過程進行記錄,方便後續進行回溯。 一、語音識別模型部署 在github上找到了一個funasr-api的項目,能夠很好的完成語音模型加載,並提供API接口,就不需要再自己去開發接口了。 Github地址如下: https://github.com/Quantatirsk

github , 服務器 , API , 分佈式 , 語音識別

收藏 評論

davisl - Whisper ASR 支持流式嗎

最近看到一個開源項目,特地學習了下,實測後,語音識別系統的正確率大概75%左右,作為學習入門的資料還是不錯的,項目已上傳到github上,不過數據集和生成的模型由於文件太大,上傳失敗,隨後存在百度網盤,自行下載哈,普通電腦真傷,跑了三天,還是gpu快點。 查看本項目的Wiki文檔 如果程序運行期間或使用中有什麼問題,可以及時在issue中提出來,我將盡

數據集 , 人工智能 , 深度學習 , Whisper ASR 支持流式嗎 , 語音識別 , Python

收藏 評論

mob64ca140b82e3 - 語音識別 -

RWK35xx語音前端處理提升語音識別置信度 在廚房裏煮着湯,水聲嘩嘩響,風扇呼呼轉——這時候你説“小愛同學,音量調低”,它卻毫無反應。是不是很崩潰?🤯 這背後不是AI聽不懂你説話,而是 根本沒聽清 。 真實世界從不安靜。噪聲、混響、遠場拾音……這些“聲音污染”讓原本清晰的語音變得模糊不清,直接導致ASR(自動語音識別

自適應 , 語音前端處理 , RWK35xx , 波束成形 , 前端開發 , 語音識別 , Javascript

收藏 評論

mb694a37feede5d - 2025年AI論文寫作工具綜合評測報告

在學術創作全流程中,開題無思路、文獻檢索不全、重複率居高不下、AI生成內容難檢測等痛點,持續困擾高校師生與科研人員。優質AI寫作工具應成為學術創作的“加速器”,而非阻礙創新的“絆腳石”。本次評測基於1000餘名學術人羣的實際使用反饋,從5大核心維度篩選出5款綜合實力突出的工具,為不同需求用户提供幫助。 一、核心評測維度 功能覆蓋廣度

訊飛 , 自動生成 , AI寫作 , aigc , 語音識別

收藏 評論

上海拔俗網絡 - 智慧政務 AI 巡查系統:用技術給政務服務 “找茬” 又 “提效”

常跑政務大廳的人都有體會:排隊半天卻被告知材料漏帶、承諾 3 天辦結卻等了一週、窗口工作人員態度忽好忽壞 —— 這些問題,如今有了 “智能管家” 來解決,它就是智慧政務 AI 巡查系統。作為深耕政務產品的從業者,我想讓大家明白:這套系統不是 “花架子”,而是用實打實的技術,把政務服務的 “糊塗賬” 算明白。 先看最貼近用户的圖像識別技術,它就像給政務大廳裝了 “智能眼睛”。和大家用手

數據 , 推送消息 , NLP , 人工智能 , 語音識別

收藏 評論