博客 / 列表

數據湖開發者社區 - Scrapy介紹及入門

一、Scrapy簡介     Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。     其最初是為了頁面抓取 (更確切來説, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。 二、架構概覽 1. Scr

python爬蟲 , scrapy , 爬蟲

數據湖開發者社區 - Python爬蟲教程(二)

一、bs4解析介紹     1.bs4解析:BS4全稱是Beatiful Soup,它提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。     2.HTML:用來描述網頁的一種語言。     1)HTML指的是超文本標記語言 (Hyper Text Markup Langu

xpath , python爬蟲 , beautifulsoup , Python