在華為 910B 服務器(通常指搭載 昇騰 Ascend 910B AI 芯片 的 AI 服務器)上,若你想查看服務器終端信息(如設備狀態、NPU 信息、驅動版本、算力使用情況等),可通過以下命令和工具進行操作。這些操作通常在 Linux 系統終端(如 Ubuntu/CentOS) 中執行。
✅ 1. 確認是否安裝 CANN(昇騰計算架構)
昇騰 910B 依賴華為 CANN(Compute Architecture for Neural Networks) 軟件棧。首先確認是否已安裝:
npu-smi info
如果提示
command not found,説明 CANN 未安裝或環境變量未配置。需先安裝 CANN(參考華為官方文檔)。
✅ 2. 查看 NPU(Ascend 910B)設備信息
使用 npu-smi 工具(類似 nvidia-smi):
npu-smi info
輸出示例:
root@suidao:/home/ubuntu# | npu-smi 25.0.rc1.1 Version: 25.0.rc1.1 |
+---------------------------+---------------+---------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Huge pages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM- Usage(MB) |
+===========================+===============+====================================================+
| 12 910B2C | Warning | 90.4 48 0 / 0 |
| 0 | 0000:00:09.0 | 0 0 / 0 3197 / 65536 |
+===========================+===============+====================================================+
| 15 910B2C | Warning | 90.3 44 0 / 0 |
| 0 | 0000:00:08.0 | 0 0 / 0 3200 / 65536 |
+===========================+===============+====================================================+
+---------------------------+---------------+----------------------------------------------------+
| NPU Chip | Process id | Process name | Process memory(MB) |
該命令可顯示:
- NPU 芯片型號(910B)
- 健康狀態(OK / Warning / Critical)
- 驅動版本(Driver Version)
- CANN 版本
- 温度、功耗、利用率
✅ 3. 查看某一張 NPU 卡的使用情況(例如 Card ID = 12)
npu-smi info -t usages -i 12 # 查看 NPU 0 的使用情況
✅ 4. 查看 NPU 卡(邏輯卡 ID 為 0)的主板/板級信息的
npu-smi info -t firmware
✅ 4. **查看健康狀態詳情(關鍵!)
npu-smi info -t health -i 12
該命令會返回每塊 NPU 的詳細健康狀態,包括:
是否存在 ECC 錯誤
温度/電壓是否超限
PCIe 鏈路是否降速
固件是否異常等
✅ 5. 查看系統日誌中的 NPU 信息
dmesg | grep -i ascend
或
dmesg | grep -i npu
可確認內核是否成功加載 Ascend 驅動。
從你提供的信息來看,Ascend(昇騰)驅動和軟件棧很可能沒有完全安裝成功,或者存在初始化失敗的問題。以下是關鍵證據和判斷依據:
🔍 核心問題證據
1. dmesg 報錯:UDA 初始化超時
[ 168.203490] [ascend] [uda] [ERROR] [uda_wait_all_phy_startup 1340] <npu-exporter:861:911:13> Wait timeout. (dev_num=0; uda_detected_dev_num=2)
- 含義:系統檢測到 2 個物理 NPU 設備(
uda_detected_dev_num=2),但 0 個設備成功完成初始化(dev_num=0)。 - 後果:NPU 雖被識別,但無法正常工作,
npu-smi顯示 Health = Warning,且無法用於計算。
2. 虛擬機環境(QEMU/VMware)
你的 dmesg 輸出包含:
QEMU QEMU USB Tablet
VirtualPS/2 VMware VMMouse
→ 説明你運行在 虛擬機中。
⚠️ 昇騰 910B 官方不支持在普通虛擬機中直通使用。即使配置了 PCIe 直通(VFIO),也極易因中斷、IOMMU、固件兼容性等問題導致設備初始化失敗。
✅ 判斷結論
|
項目 |
狀態 |
説明 |
|
硬件識別 |
✅ 成功 |
|
|
驅動加載 |
⚠️ 部分成功 |
|
|
NPU 可用性 |
❌ 不可用 |
無法執行 MindSpore 或 Ascend C 程序 |
|
根本原因 |
虛擬機環境 + 驅動/固件不兼容 |
最可能原因 |
🛠 建議解決方案
✅ 首選方案:遷移到物理服務器(裸金屬環境)
- 昇騰 910B 官方僅支持在物理機上部署。
- 虛擬機中的 PCIe 直通對 NPU 這類複雜設備支持極差,華為未提供 VMware/QEMU 虛擬化方案。
🔧 若必須在當前環境調試(臨時方案):
- 確認 CANN 版本兼容性
- 你使用的是 CANN 25.0.rc1.1(RC 預發佈版),可能存在 Bug。
- 建議降級到 CANN 7.0.RC1 或 7.0 正式版(需匹配 MindSpore 版本)。
- 檢查驅動與固件版本匹配
npu-smi info -t common # 查看驅動版本
npu-smi info -t product # 查看固件版本
- 確保驅動、CANN、固件三者版本在華為兼容性列表中匹配。
- 嘗試重啓驅動
sudo rmmod ascend_npu hccn hisi_hpre
sudo modprobe ascend_npu
- 查看詳細錯誤日誌
cat /var/log/npu/slog/host-0/*.log | grep -i "error\|fail\|timeout"
📌 總結
不是“沒安裝”,而是“安裝了但初始化失敗”。
根本原因極大概率是:你在虛擬機中運行昇騰 910B,而該芯片不支持虛擬化環境。
✅ 強烈建議:將項目遷移到物理服務器(裸金屬)環境重新部署 CANN + MindSpore。
如需進一步幫助(如檢查 CANN 安裝日誌、版本兼容性表),請提供:
cat /var/log/npu/installer/*.logpip show mindsporecat /etc/os-release