動態

詳情 返回 返回

R語言入門筆記:第一節,快速瞭解R語言——文件與基礎操作 - 動態 詳情

目錄
  • 關於 R 語言的簡單介紹
  • 到什麼地方去找 R 語言的教程
  • R 語言的基本語法
  • 文件與路徑
    • 為什麼要注意路徑問題?
    • 關於文件格式
      • R Script 與 R Markdown
      • R Script
      • R Markdown
        • YAML 頭部
        • Markdown 文檔部分
        • 可運行的代碼塊

關於 R 語言的簡單介紹

上一期 R 語言入門筆記裏面我簡單介紹了 R 語言的安裝和使用方法,以及各項避免踩坑的注意事項。我想把這個系列的筆記持續寫下去。

這份筆記只是我的 R 語言入門學習筆記,而不是一套 R 語言教程。換句話説:這份筆記不會事無鉅細地介紹 R 語言的逐項細節,畢竟現在網上有關R的教程已經非常多了。這份筆記主要是針對 R 語言學習過程中各個容易掉進去的坑進行規避,以及根據我自身的經驗提供一些學習思路。

首先,R 語言是一門特殊的、專用於統計分析和建模的編程語言。一般情況下,我猜測大家學習R語言主要可能是因為出於以下的原因:

  1. 主要從事統計分析的工作,將R語言作為自己的主力編程語言

  2. 主力編程語言不足以應對複雜的統計分析問題,需要 R 的輔助

  3. 你不知道,因為你只是一個普通的苦逼醫學生,而身邊的醫學生都在使用 R

我個人比較符合第二種情況。我通常使用 Python,R 則是剛剛開始學習。因此我也希望能和這份筆記的讀者們共同進步。

到什麼地方去找 R 語言的教程

考慮到 R 語言是專為統計分析設計的編程語言,所以 R 語言的許多機制也和統計分析本身有關。

首先需要掌握一些有關統計分析的基本概念。一旦熟悉了統計分析的基本概念,就能基本瞭解R語言能夠幫助你完成哪些功能(統計分析需要的那些計算機功能,R 語言幾乎都可以實現。)

首先,如果是想要了解一些有關統計分析的方法論,可以試試看這個 Bilibili 網課:統計分析輕鬆入門(2023修訂版)。

關於 R 語言本身的學習,Bilibili 平台上有一些不錯的網課可供參考:

  1. 人話R語言教程
  2. 【R語言入門】小白速成與實踐 全30課

教材的話,我找到的這個 四川師範大學研究生公選課《數據科學中的R語言》 看上去也很不錯。

R 語言的基本語法

略。

……別人的教程都寫過了,我幹嘛還要再寫一遍?

哎,跳過。

文件與路徑

為什麼要注意路徑問題?

初次體驗 R Studio 的時候,一大印象就是沒有非常輕便穩定的路徑管理,因為 R Studio 中終端並不會默認在工作空間裏開啓。

相比較其他我常用的 IDE 而言,如果是在 Visual Studio Code 中移動工作空間,只需要直接關閉IDE然後直接在電腦上打開另一個文件夾,右鍵,選擇“在 Visual Studio Code 中打開”就可以很容易地在相應的工作目錄運行和調試程序。但是對於 R Studio,即使你把右下角的 Files 欄切換到了正確的工作區目錄(以防止新人不瞭解:就是你堆放數據文件和代碼腳本的文件夾),你的終端還是在原來的那個目錄裏面。你這個時候去敲R的實時交互命令讀取某個路徑下的數據,或者運行 R 的代碼文件讀取數據,就要報錯。

遇到這種情況,如果你不想在 R 命令行裏面通過敲命令再切換一次,可以考慮將所有 R 語言編程活動都變成一個個獨立的項目去管理。嘗試在 R Studio 右上角點擊 Files,然後新建一個 R 項目,下次打開代碼直接點擊後綴名為 *.Rproj 的項目文件,就能正確打開 R Studio 並切換正確的工作目錄。

關於文件格式

R Script 與 R Markdown

R語言的代碼最常見的主要有兩種文件格式:原生的R語言腳本文件(R Script),以及 R Markdown,一種R語言和Markdown相互交替書寫、分段運行的奇特代碼。R Script 和 R Markdown 相當於 Python 中的 *.py 腳本和 Jupyter Notebook 的關係。

R Script

R Script 是 R 語言的腳本,就是正常編寫代碼的方式。

主流的 R 語言的代碼規範可以參照 Google的R語言編碼風格指南(Google’s R Style Guide)。比如在 R Script 中 R 語言代碼可以分節,用小節標題前後四個 # 加空格分割的形式:

#### hello world ####

# This is a hello world program in R
print("hello, world")

如果你有一個R腳本文件(比如 hello.R),你可以使用 source() 函數來加載它的內容到當前的工作空間中。這相當於在當前環境中運行這個文件的所有代碼。

# 假設你有一個 hello.R 文件
# 定義了 Hello() 函數
source("hello.R")
Hello()

這樣,definitions.R 中定義的所有函數和變量都會加載到當前的工作空間中,你可以在其他文件中使用它們。

有時你可能不希望加載所有定義到全局環境中,可以通過設置 source()local 參數來控制代碼加載到局部環境中。

local_env <- new.env()
source("hello.R", local = local_env)

# 使用定義在 local_env 環境中的對象
local_env$Hello()

如果你的定義文件非常複雜或包含多個功能模塊,你可以考慮將其封裝為一個 R 包。這樣,你可以通過 library() 來引用包中的功能,並且包的組織結構可以幫助你更好地管理代碼。同樣地,對於下載的包也是使用 library() 導入。

還有一種方式是使用 sys.source(),這裏剛剛入門,暫且不論。

R Markdown

為防止新人朋友們不知道——簡單的來講,Markdown 是用來給文章排版的,是一種極簡主義的排版工具,只有標題、引用、有序列表、無序列表、斜體、加粗、超鏈接和圖片這 8 個功能,Markdown 語法簡單易學,非常適合快速編寫和組織文檔,足以允許我們把 R 語言代碼和代碼説明性文章/報告放在一起排版了。

熟悉Jupyter Notebook的朋友可能會知道:Jupyter Notebook 實際上是一種通過網頁實時渲染的 JSON 文本,而R Markdown則是完完全全的純文本,只是在 R Markdown 中 Markdown 和 R 語言的代碼可以交替編寫。這就意味着R Markdown不能保存代碼運行的結果,但也不會因為巨大的圖片文件而變得臃腫。

另一方面,儘管 Jupyter Notebook 本身就具備 R 編程的功能,但實際上很多情況下 R Markdown 比 Jupyter Notebook 的體驗更好。如果你的計算機上正確配置過 \LaTeX 的話,理論上你可以通過 R Markdown 一鍵構建PDFL格式的報告或者論文;如果沒有 \LaTeX ,Word 或者 HTML 都是沒問題的。關於其詳細操作方法,以後的筆記裏面我們慢慢聊。

image

大家在新建 R Markdown 的時候生成的文件裏面就會自帶簡單的説明信息,事實上,我在這裏無需贅述。但是出於禮貌也方便大家理解,我簡記一筆:

簡單的來講:一個標準的 R Markdown 文件包含三個部分:YAML 頭部、Markdown 文檔和可運行的代碼片段。這裏逐一介紹:

YAML 頭部

YAML 頭部位於文件的最上方,用前後三個短橫線 --- 包裹。它主要用來設置文檔的元信息,例如標題、作者、日期、輸出格式等。

---
title: "R Markdown 入門示例"
author: "盒子online_1396529"
date: "2024-07-01"
output: pdf_document
---

R Markdown 可以被編譯成多種格式的文件,包括 PDF、HTML、Word 等,從而快速生成論文或統計分析報告。這個功能被稱為 knit。選擇輸出格式時,只需在 YAML 頭部指定 output 選項即可。每種輸出格式都可以進行進一步的定製,例如,選擇 PDF 輸出時,你可以使用 \LaTeX 語法來調整排版細節。

output:
  pdf_document:
    latex_engine: xelatex
    toc: true # 添加目錄
    number_sections: true # 章節自動編號

Markdown 文檔部分

Markdown 文檔部分是 R Markdown 的主體內容。在這裏,你可以使用 Markdown 語法編寫文本、標題、列表、引用、表格、圖片等。

## 標題示例

這是一個簡單的段落,你可以使用 **加粗** 和 *斜體* 來突出重點。

### 列表示例

- 無序列表項1
- 無序列表項2
- 無序列表項3

1. 有序列表項1
2. 有序列表項2
3. 有序列表項3

可運行的代碼塊

R Markdown 的一個重要功能是可以在 Markdown 文檔中嵌入 R 代碼塊,並在文檔編譯時自動運行這些代碼。代碼塊可以生成圖表、分析結果,並將這些內容直接嵌入到文檔中(這個功能簡直就是神了)!

代碼塊通常用上下兩排三個反引號 ``` 包裹,並在第一排反引號後加上 {r} 指定這是一個 R 代碼塊(原生的 Markdown 語法在插入代碼片段的時候指定編程語言的名稱不加花括號)。

我在這裏沒有辦法演示這個功能,因為這份筆記正是用 R Markdown 編寫的。如果我另起一行寫下 ```{r} 這段內容就會直接被識別成有待運行的 R 語言代碼塊,而代碼塊的格式也就被忽略掉不會插入筆記了。

R Markdown 結合了 Markdown 的簡潔和 R 語言的強大功能,適合用來編寫包含數據分析、報告、學術論文等內容的文檔。它讓編寫文檔的過程變得更加高效和靈活,無論是日常工作中的報告,還是學術研究中的論文,R Markdown 都是一個得力的工具。總的來講: 當我們新開始一個 R 語言數據分析項目並處於數據探究階段的時候,可以選擇在一開始就直接新建 R Markdown 上手寫,而不是一上來就編寫 R 腳本文件。

Add a new 評論

Some HTML is okay.