-
新建一個文件夾,這裏我命名為“爬”。
mkdir pa -
初始化一個工程,並安裝相關模塊。
cd pa // 安裝package.json npm init // 安裝cheerio,用來在服務端使用jq語法操作dom npm install cheerio --save -
新建文件命名為app.js,按照需求爬取數據,並保存到data.txt。
const http = require('http') const fs = require('fs') const cheerio = require('cheerio') function getData(url, title) { http.get(url, function(res) { let html = '' res.setEncoding('utf-8') res.on('data', function(chunk) { html += chunk }) res.on('end', function() { const $ = cheerio.load(html) // 按頁面dom結構獲取你需要的數據 const content = `\n\n\n\n\n\n--------公告【${title}】的內容---------\n\n` + $('.xq4').text().trim() + `\n\n--------公告【${title}】的內容結束嘍---------\n\n\n` fs.appendFile('./datas/data.txt', content, 'utf-8', function(err) { if (err) { console.log(err); } }) }) }) } // 按照實際情況編寫請求 http.get(`接口地址`, function(res) { res.setEncoding('utf-8') res.on('data', function(res) { res = JSON.parse(res) res.data.forEach(item => { const url = `頁面地址帶上接口返回的參數${item.id}` getData(url, item.title) }); }) }) - 執行
node app.js,一個超級簡單的爬蟲就完成了~