博客 / 列表

瑞0908 - xpath匹配一個標籤下所有內容

from lxml import etree import requests url = 'http://www.shihuo.cn/youhui/474770.html#qk=youhui_list' response = requests.get(url) text = etree.HTML(response.text) tt = text.xpath("//div[@class='art

xpath , lxml , requirejs , Python

瑞0908 - POST傳參方式的説明及scrapy和requests實現

1、application/x-www-form-urlencoded 如果不設置Content-type,默認為該方式,提交的數據按照 key1=val1key2=val2 的方式進行編碼。 requests : scrapy: 2、application/json: 請求所需參數以json的數據格式寫入body中,後台也以json格式進行解析。 requests: scrapy:

python3.x , scrapy , 爬蟲

瑞0908 - python視頻工具包 ffmpeg 使用示例

1.簡介 FFMPEG堪稱自由軟件中最完備的一套多媒體支持庫,它幾乎實現了所有當下常見的數據封裝格式、多媒體傳輸協議以及音視頻編解碼器,提供了錄製、轉換以及流化音視頻的完整解決方案。 2.ffmpeg的常用方法 將某文件下所有ts文件按順序合併,轉換成MP4格式存儲: import ffmpeg def test2(): ts_folder = 'path/ts_file

ffmpeg , Python

瑞0908 - response返回中文亂碼

返回響應中文是亂碼 可以通過下面代碼解決 response.encoding = 'utf-8' # 確保編碼為UTF-8

亂碼 , requests , 爬蟲

瑞0908 - 替代selenium的好用包Drissionpage

1.簡介: 常規情況下,我們藉助requests 庫爬取不加密的網站,使用 Selenium 庫爬取加密的網站。requests 效率高,但是解密難度大。Selenium 庫可以實現網頁自動化,不用解密,但是爬蟲效率不高。那有沒有什麼庫既效率高,又可以網頁自動化。DrissionPage 庫他來了,號稱可以把 Selenium 按在地上摩擦!DrissionPage 庫結合了 requests 和

爬蟲 , selenium

瑞0908 - RSA AES-對稱加密和非對稱加密

客户端加密過程主要分為以下三個步驟: 1.客户端:隨機產生AES的密鑰 2.客户端:對身份證信息(重要信息)進行AES加密 3.客户端:通過使用RSA對AES密鑰進行公鑰加密 4.服務端:對加密後的AES密鑰進行RSA私鑰解密,拿到密鑰原文; 5.服務端:對加密後的重要信息進行AES解密,拿到原始內容。 之所以這麼麻煩,因為: AES對稱加密、解密的速度要比RSA快很

加密解密

瑞0908 - 解決 xpath遇到特殊符號匹配不全信息的問題

這個問題是我之前的一個提問 經過了兩三天的研究終於解決了 背景: import requests from lxml import etree url = "https://music.163.com/discover/toplist?id=3779629" headers = { 'User-Agent': "PostmanRuntime/7.15.2",

xpath , python爬蟲 , beautifulsoup , requests

瑞0908 - OSError: cannot write mode RGBA as JPEG

captcha.save('code.jpg') 原因:RGBA意思是紅色,綠色,藍色,Alpha的色彩空間,Alpha指透明度。而JPG不支持透明度,所以要麼丟棄Alpha,要麼保存為.png文件 解決 方法一 隱藏RGB captcha=captcha.convert('RGB') captcha.save('code.jpg') 方法二 直接將圖片存為png格式 支持透明度

操作系統 , 圖片存儲 , Python

瑞0908 - Scrapy 框架入門簡介

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。 框架的力量,用户只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。 Scrapy 使用了 Twisted'twɪstɪd異步網絡框架來處理網絡通訊,可以加快我們的下載速度,不用自己去實現異步框架,並且包含了各種中間件接口,可以靈活的完成

網頁爬蟲 , yield , scrapy , Python