tag 爬蟲

標籤
貢獻56
114
07:51 PM · Oct 26 ,2025

@爬蟲 / 博客 RSS 訂閱

Python技術大本營 - 還在用requests寫爬蟲嗎?這個庫效率提高一倍!

最近公司 Python 後端項目進行重構,整個後端邏輯基本都變更為採用"異步"協程的方式實現。看着滿屏幕經過 async await(協程在 Python 中的實現)修飾的代碼,我頓時感到一臉懵逼,不知所措。 雖然之前有了解過"協程"是什麼東西,但並沒有深入探索,於是正好藉着這次機會可以好好學習一下。 什麼是協程? 簡單來説,協程是一種基於線程之上,但又比線程更加輕量級的存在。對於系統內核來説,協

requests , 爬蟲

收藏 評論

16213681 - python QQ空間圖片

本人現階段尚在學習階段,參考學習鏈接如下,部分代碼可能存在相同 代碼使用python2.7,如果用的是python3.0版本,使用的類庫可能需要自行更改!!! # coding: utf-8 import re import urllib import urllib2 import os import co

後端開發 , python QQ空間圖片 , 爬蟲 , ide , Json , Python

收藏 評論

黑客Roman - Python爬蟲實戰,requests+re模塊,Python實現爬取豆瓣電影《魔女2》

前言 閉關幾個月,今天為大家帶來利用Python爬蟲抓取豆瓣電影《魔女2》影評,廢話不多説。 爬取了6月7月25的影片數據,Let's start happily 開發工具 Python版本: 3.6.4 相關模塊: requests模塊 json模塊 re模塊 os模塊 pandas模塊 time模塊 以及一些Python自帶的模塊。 環境搭建 安裝Python並添加到環境變量,pip安裝需要

豆瓣 , 電影 , requests , 爬蟲 , Python

收藏 評論

Odin - 深入研究:京東圖片搜索商品 API 詳解

一、引言 在當今電商行業蓬勃發展的背景下,用户的購物習慣和需求日益多樣化。傳統的文字搜索商品方式已不能完全滿足用户的需求,圖片搜索商品作為一種更加直觀、便捷的搜索方式逐漸興起。京東作為國內領先的電商平台,推出了圖片搜索商品 API,為開發者和商家提供了強大的工具,使得他們能夠基於圖片信息快速準確地在京東海量商品庫中找到對應的商品。通過該 API,不僅可以提升用户的購物體驗,還能為電商相關的數

數據挖掘 , 數據可視化 , 圖片上傳 , 數據分析 , 爬蟲

收藏 評論

阿睿 - 20個Python語言學習神仙網站:Python的特點及安裝,運行

Python在多個領域有着廣泛的應用,包括Web開發、數據科學、人工智能、機器學習、自動化、網絡編程等。這使得學習Python能夠為不同領域的職業發展提供支持。掌握Python編程技能成為許多工作職位的基本要求。因此,學習Python可以增加在職場上的競爭力。當涉及到Python語言時,有許多方面需要考慮,包括語法、特性、庫和應用程序等。今天簡單來跟大家分享下關於python的那些事兒。 P

爬蟲 , 學習資料 , 後端 , Python

收藏 評論

馬哥天才3218 - 【技術分享】用python開發採集軟件,爬指定博主的主頁已發佈帖子

一、工具開發背景與效果 在數據驅動決策的時代,社交媒體數據分析需求日益增長。作為一名資深開發者,我注意到研究人員常需要獲取微博公開數據進行學術分析。為此,我開發了這款專業級數據採集工具:爬微博博主軟件。旨在為學術研究提供技術支持。 界面如下: 使用過程演示視頻:請見原文。 二、工具核心特性 2.1 系統兼容性 支持Windows和Mac雙平台運行無需複雜環境配置,開箱即用 2.2 數據

微博採集 , 爬蟲 , Python

收藏 評論

是大魔術師 - Python爬蟲——使用Pipeline實現數據的處理(三)

在數據驅動的時代,爬蟲作為數據採集的核心手段,已廣泛應用於電商分析、輿情監測、學術研究等多個領域。但爬蟲獲取的原始數據往往存在格式混亂、字段缺失、重複冗餘、噪聲干擾等問題 —— 可能是 HTML 標籤殘留、日期格式不統一、數值單位不一致,也可能是無效字符、邏輯衝突數據。這些 “髒數據” 若直接用於分析或建模,會導致結論偏差、系統故障等風險。 數據清

字段 , 數據清洗 , 數據 , Css , 爬蟲 , 前端開發 , HTML

收藏 評論

K哥爬蟲 - 【驗證碼逆向專欄】百某網數字九宮格驗證碼逆向分析

聲明 本文章中所有內容僅供學習交流使用,不用於其他任何目的,不提供完整代碼,抓包內容、敏感網址、數據接口等均已做脱敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關! 本文章未經許可禁止轉載,禁止任何修改後二次傳播,擅自使用本文講解的技術而導致的任何意外,作者均不負責,若有侵權,請在公眾號【K哥爬蟲】聯繫作者立即刪除! 目標 目標:百 X 網數字九宮格驗證碼逆向分析 網址:aH

驗證碼 , 爬蟲 , 逆向工程

收藏 評論

流冠代理IP - 新手爬蟲一定要看!怎麼使用代理IP全攻略!

當爬蟲訪問網站時,可能會遭遇IP封鎖或請求頻率限制。通過使用代理IP,可以分散請求壓力並規避特定對IP的限制,從而提高採集任務的持續性。同時, 不同的IP地址讓爬蟲在網絡上顯示為不同的位置來源,避免單一IP的頻繁請求導致被目標網站檢測到,從而提升整體數據抓取的穩定性。 一、選擇合適的代理IP服務 在選擇代理IP服務時需要關注幾個關鍵因素: IP質量:選擇具備高可用率和低延遲的IP地址服務的優質I

http代理 , 數據採集 , 爬蟲

收藏 評論

馬哥天才3218 - 【技術分享】用python開發的短視頻評論區採集軟件

作為當下最火爆的社交媒體之一,短視頻評論區堪稱一座藴含海量用户洞察的“數據金礦”。無論是品牌方想要精準把握消費者需求,還是創作者希望瞭解受眾反饋,高質量的評論數據都能提供關鍵支撐。於是,我專門用python語言開發了一款專為評論採集設計的工具“爬dy搜索評論軟件”,輕鬆解決數據獲取難題。 一、工具適配與技術説明 1.1 適配環境 Windows系統用户可直接雙擊啓動,無需安裝Python運行

數據採集 , python爬蟲 , 爬蟲

收藏 評論

K哥爬蟲 - 【驗證碼逆向專欄】螺絲帽人機驗證逆向分析

聲明 本文章中所有內容僅供學習交流使用,不用於其他任何目的,不提供完整代碼,抓包內容、敏感網址、數據接口等均已做脱敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關! 本文章未經許可禁止轉載,禁止任何修改後二次傳播,擅自使用本文講解的技術而導致的任何意外,作者均不負責,若有侵權,請在公眾號【K哥爬蟲】聯繫作者立即刪除! 目標 目標:Luosimao 螺絲帽人機驗證逆向分析 網址

驗證碼 , 爬蟲 , 逆向工程

收藏 評論

悲傷的斑馬 - TIOBE 2025年12月編程語言排名:Java退居第四,Python、C、C++領跑

在TIOBE最新發布的2025年12月編程語言排行榜中,一場持續數年的技術格局變革迎來關鍵節點:Python以絕對優勢蟬聯榜首,C語言憑藉C23標準升級重返第二,C++穩居第三,而曾長期佔據前三的Java首次跌至第四。這一排名變化不僅折射出技術演進方向,更揭示了開發者需求與產業生態的深層變革。 最新榜單:傳統與新興的激烈碰撞 排名劇變背後的三大驅動力 Python:AI時代的“通用語言

rust , 編程語言 , c++ , 爬蟲 , Python

收藏 評論

itbrowser - 開源反檢測指紋瀏覽器Undetectable Fingerprint Browser

🕵️‍♂️ Undetectable Fingerprint Browser 開源·模塊化·可編程的反檢測瀏覽器 Undetectable Fingerprint Browser 是一款 高度可定製、真實可還原、自動化友好 的反檢測瀏覽器,專為對抗現代網站複雜指紋識別系統而設計。無論你是進行 反反爬研究、營銷監測、多賬號防關聯,還是需要構建一個高度可控的自動化瀏覽器環境,本項目都是你的不二之選。

playwright , 自動化測試 , 爬蟲 , 網絡爬蟲 , selenium

收藏 評論

闖紅燈的獼猴桃 - 隱匿與偽裝:爬蟲如何通過代理IP實現身份偽裝?

在數據驅動的時代背景下,網絡爬蟲技術面臨着日益嚴峻的反爬機制挑戰。住宅代理憑藉其真實的IP資源特性,為爬蟲流量提供了可靠的隱匿解決方案。本文將系統探討如何通過精細化的偽裝策略,使爬蟲流量完美融入正常用户的訪問行為序列。 指紋、行為與系統的三重偽裝 流量指紋的深度偽裝體系 網絡流量在傳輸過程中會留下獨特的協議特徵,這些特徵構成了流量的"指紋",完善的偽裝體系需要從多個層面着手: 精確模擬不同操作

觀點 , 知識 , 爬蟲

收藏 評論

普郎特 - Dp框架監聽接口數據方法總結(含 steps 與 wait 討論)

DrissionPage 監聽器 API 完全指南 一、方法概覽 方法 參數 返回類型 阻塞/超時 適用場景 steps(count=XX) count:循環次數或批量數據數量 生成器,每次 yield 一條數據對象 阻塞直到 count 條數據完成 批量同步處理接口數據,已知數據量或固定次數獲取

教程 , 知識 , 爬蟲 , Python

收藏 評論

nixidexuegao - API的未來:智能化、自動化與集成化

應用程序編程接口(API)已經成為現代軟件開發的基石。隨着技術的不斷髮展,API的演進也在加速。從最初的簡單數據交換通道,到現在的複雜服務架構,API的角色和功能不斷擴展。在未來,我們可以預見API將朝更加智能化、自動化和集成化的方向發展。 一、智能化API:利用AI提升接口功能與效率 1.1 智能路由與負載均衡 定義與現狀:智能路由和負載均衡技術通過動態調整流量分配,優化服務器資源利

API , 電商 , 爬蟲 , Python

收藏 評論

二毛erma0 - 百度文庫之文檔解析筆記

起因 上次想下載個文檔,試了一圈百度文庫下載器,結果都不能用了。 包括各種軟件和瀏覽器插件、油猴插件,全都不行了。 無奈只能臨時用複製的方法(選中內容,點擊“翻譯”)把內容拿到。 事後有空,索性看看能不能解析下載下來。 過程 先網上搜了一下,有開源的內容,也有分析的文章,試了兩個也都不能用了,所以沒細看。 直接上手,發現直接訪問文章鏈接,網頁內容直接就包括所有需要的東西了,包括文字和圖片的鏈接。

下載 , 百度文庫 , 爬蟲

收藏 評論

小小張説故事 - 從零開始學習 Python 網絡爬蟲:使用 Beautiful Soup 解析網頁

在這篇文章中,我們將介紹如何使用 Python 編寫一個簡單的網絡爬蟲,以獲取並解析網頁內容。我們將使用 Beautiful Soup 庫,它是一個非常強大的庫,用於解析和操作 HTML 和 XML 文檔。讓我們開始吧! 一. 安裝 Beautiful Soup 首先,您需要安裝 Beautiful Soup。在終端或命令提示符中運行以下命令: pip install beautifulsoup4

beautifulsoup , 爬蟲 , Python

收藏 評論

微笑的小刀 - 慕課 C++中高級工程師

你是否感覺自己陷入了 C++ 學習的“初級陷阱”?👇🏻ke🍊:xingkeit點top/9699/你熟悉 if-else、for 循環,能用類和對象封裝一些簡單的功能,但每當面對大型項目、高併發場景或者複雜的系統設計時,總會感到力不從心,彷彿面前有一道無形的牆。 這道牆,就是從“會用 C++”到“精通 C++”的分水嶺。許多開發者在此徘徊數年,始終無法突破。而要打破它,你需要一次系統性的、從

觀點 , 知識 , c++ , 爬蟲

收藏 評論

程序員一諾python - 【爬蟲開發】爬蟲開發從0到1全知識教程第14篇:scrapy爬蟲框架【附代碼文檔】

🏆🏆🏆教程全知識點簡介:1.Mongodb數據庫包括介紹、mongodb簡單使用(mongodb服務端啓動、啓動mongodb客户端進入mongo shell)。2. scrapy爬蟲框架涵蓋 ip使用、啓動爬蟲、停止爬蟲、scrapyd webapi。3. Gerapy包含通過Gerapy配置管理scrapy項目。4. appium移動端抓取涉及appium自動控制移動設備、appium

數據庫 , 爬蟲 , 後端 , Python

收藏 評論

馬哥python説 - 【youtube爬蟲】油管評論採集軟件v3.0版,一鍵批量採集指定視頻下評論

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景介紹 1.1 爬取目標 您好!我是@馬哥python説,一枚10年+程序猿,現全職獨立開發。 我用Python獨立開發了一款爬蟲工具:爬油管評論軟件。作用是:爬取油管指定視頻下的評論數據,支持批量視頻的採集。 包含10個關鍵字段: 1. cid(評論id) 2. text(評論內容)

數據採集 , 爬蟲 , youtube

收藏 評論

馬哥python説 - xhs_search_comment_tool | 2025自研小紅書評論區數據採集工具

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法性,禁止用於任何商業用途! 一、背景概述 1.1 開發背景 小紅書作為國內領先的社交電商平台,擁有龐大的用户羣體和高活躍度,其筆記評論區域藴藏着豐富的用户反饋信息。在合法合規、尊重平台規則及用户隱私的前提下,對小紅書評論數據進行合理採集與分析,有助於企業深入瞭解消費者對產品與品牌的真實評價,從而更好地洞察市場需求、優化產品策

gui , 工具軟件 , 數據採集 , 爬蟲 , Python

收藏 評論

流冠代理IP - 如何改電腦網絡IP地址?更改網絡IP地址有什麼用?

在數字化時代,IP地址是電腦在互聯網上的獨特標識。然而,在某些情況下,我們可能需要更改電腦的IP地址。無論是出於網絡安全、隱私保護,還是為了訪問特定網絡資源,更改IP地址都可能是必要的。本文將詳細介紹如何更改電腦網絡的IP地址,並探討其實際用途。 一、如何改電腦網絡的IP地址? 更改電腦的IP地址可以通過多種方法實現,包括手動設置靜態IP地址和使用自動獲取或第三方軟件。 1、手動設置

ip地址 , 動態代理 , 爬蟲

收藏 評論

K哥爬蟲 - 【0基礎學爬蟲】爬蟲基礎之抓包工具的使用

大數據時代,各行各業對數據採集的需求日益增多,網絡爬蟲的運用也更為廣泛,越來越多的人開始學習網絡爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。 抓包工具概述 抓包工具,顧名思義,就是抓取網絡數據包信息的工具。抓包工具最初主要應用於測試工作中,通過抓包工具查看網絡數據包,並進行分析,來定位

fiddler , 爬蟲 , charles , Python

收藏 評論