博客 / 詳情

返回

跨語言智能再升級!Multi-LMentry 打造多語理解新基準;Nemotron-Personas-USA重塑虛擬人畫像生成

公共資源速遞

5 個公共數據集:

  • Life Style Data 生活方式數據集
  • Multi-LMentry 多語言基礎任務評測基準
  • Nemotron Personas USA 美國人物畫像數據集
  • The Diabetes Health Indicators 糖尿病健康指標數據集
  • Global Earthquake-Tsunami Risk 全球地震海嘯風險評估數據集

訪問官網立即使用:http://openbayes.com

公共數據集

1. Life Style Data 生活方式數據集

Life Style Data 數據集是一個綜合性的健康與生活方式分析基準,整合了個體在飲食、運動、生理指標和身體組成等多維度的數據,並以結構化 CSV 格式公開。主要字段包括體重、心率、運動時長、熱量消耗、營養攝入和訓練計劃等。該數據集可用於個性化健康推薦、運動模式分析與生活方式預測建模,支持多維行為研究與健康管理優化。

在線使用:

https://go.openbayes.com/O9EkA

2. Multi-LMentry 多語言基礎任務評測基準

Multi-LMentry 數據集是一個用於評估大型語言模型(LLMs)在多語言環境下基礎語言理解與推理任務中的綜合基準,涵蓋英語、德語、西班牙語、韓語等九種語言。任務由母語者基於 LMentry 框架重新設計,避免直接翻譯以保持語言與文化自然性,可用於系統考察模型的跨語言泛化與一致性能力。

在線使用:

https://go.openbayes.com/Hvb4z

3. Nemotron Personas USA 美國人物畫像數據集

Nemotron-Personas-USA 數據集是一個大規模合成用户畫像數據集,用於支持語言模型與智能代理的個體建模與社會行為生成。它包含約 100 萬條虛擬人物記錄,覆蓋美國 50 個州及附屬地區,涵蓋職業、教育、收入、興趣與價值觀等描述。該數據集可用於評估模型在多樣化對話生成與個性化行為模擬中的一致性與社會代表性。

在線使用:

https://go.openbayes.com/wLiWQ

數據集分佈

4. The Diabetes Health Indicators 糖尿病健康指標數據集

Diabetes Health Indicators 數據集是一個用於糖尿病風險預測與公共衞生研究的綜合基準,包含 31 個特徵字段,覆蓋人口屬性、生活方式、病史與臨牀指標。數據經過標準化處理,結構完整、分佈均衡。主要變量包括 BMI、血壓、血糖、膽固醇及運動飲食習慣,並提供糖尿病診斷與分期標籤,可直接用於模型訓練與健康風險分析。

在線使用:

https://go.openbayes.com/pqBO0

5. Global Earthquake-Tsunami Risk 全球地震海嘯風險評估數據集

Global Earthquake-Tsunami Risk 數據集是一個用於地震與海嘯風險建模的全球基準,收錄 2001–2022 年間 782 起重大地震觀測數據,覆蓋全球主要地震帶。數據以 CSV 格式發佈,包含震級、深度、台站數量、感知強度及事件顯著性等字段,並標註是否觸發海嘯。該數據集用於地震災害分析與海嘯二分類預測研究,支持地球物理建模與災害風險評估。

在線使用:

https://go.openbayes.com/p9sRO

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.