博客 / 詳情

返回

R語言之數據導出

文章和代碼已經歸檔至【Github倉庫:https://github.com/timerring/dive-into-AI 】或者公眾號【AIShareLab】回覆 R語言 也可獲取。

1. 導出數據

由於 R 主要用於數據分析,導入文件比導出文件更常用,但有時我們也需要將數據或分析結果導出。函數 write.table( )write.csv( ) 可以分別將數據導出到一個 .txt 文件和 .csv 文件。

此外,函數 save( ) 可以將工作空間中的指定對象保存為以 .rdata 為擴展名的 R 數據文件。例如:

ID <- 1:5
sex <- c("male", "female", "male", "female", "male")
age <- c(25, 34, 38, 28, 52)
pain <- c(1, 3, 2, 2, 3)      
pain.f <- factor(pain, levels = 1:3, labels = c("mild", "medium", "severe"))   
patients <- data.frame(ID, sex, age, pain.f)
save(patients, file = "patients.rdata")

# 導入數據
load("patients.rdata")

rdata 格式文件佔用空間小,用 R 讀入速度很快。因此,建議用户在導入其他格式的數據並整理好後,將其保存為 rdata 格式。要導入這種格式的數據,只需調用 load( ) 函數。

2.用 rio 包導入和導出數據

R 中的 rio 包以提供一個類似萬能工具的包為目標,用統一的 import( ) 函數和 export( ) 函數簡化了用户導入和導出數據的工作。此外,該包裏的 convert( ) 函數可以實現不同文件格式之間的轉換。rio 包支持多種文件格式,包括 SAS、SPSS、Stata、Excel、MATLAB、Minitab 等其他軟件中使用的數據文件格式。

下面以 datasets 包裏面的數據集 infert 為例介紹 rio 包的幾個常用功能。

當你在本地加載 rio 包時,如果 R 提示有些建議安裝的包沒有安裝,可以運行 install_formats( ) 命令進行安裝。
library(rio)
data("infert")
str(infert)
# 'data.frame':    248 obs. of  8 variables:
# $ education     : Factor w/ 3 levels "0-5yrs","6-11yrs",..: 1 1 1 1 2 2 2 2 2 2 ...
# $ age           : num  26 42 39 34 35 36 23 32 21 28 ...
# $ parity        : num  6 1 6 4 3 4 1 2 1 2 ...
# $ induced       : num  1 1 2 2 1 2 0 0 0 0 ...
# $ case          : num  1 1 1 1 1 1 1 1 1 1 ...
# $ spontaneous   : num  2 0 0 0 1 1 0 0 1 0 ...
# $ stratum       : int  1 2 3 4 5 6 7 8 9 10 ...
# $ pooled.stratum: num  3 1 4 2 32 36 6 22 5 19 ...

函數 str( ) 常用於查看數據集的大小(觀測的記錄數及變量個數),以及各個變量的類型。從上面的輸出可以看出,infert 是一個包含 248 個觀測記錄、每個記錄有 8 個變量的數據框。

運行下面的命令將此數據框導出為 .csv 文件:

export(infert, "infert.csv")

在當前工作目錄中可以找到剛才導出的名為 infert.csv 的數據文件。運行下面的命令將該文件從 .csv 文件轉換成 .sav 文件:

convert("infert.csv", "infert.sav")

然後用函數 import( ) 把上面生成的 .sav 文件導入 R 中,並命名為 infert.data:

infert.data <- import("infert.sav")

比較原始的 infert 數據集和導入的 infert.data 數據集,除了第一個變量 education 的類型不一樣,其餘沒有差別。在 R 中,as 系列函數可以用於實現變量類型的轉換。

例如,這裏將數據框 infert.data 中的字符型變量 education 轉換為因子:

infert.data$education <- as.factor(infert.data$education)
str(infert.data$education)
# Factor w/ 3 levels "0-5 yrs","12+ yrs",..: 1 1 1 1 3 3 3 3 3 3 ...
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.