tag 爬蟲

標籤
貢獻56
105
07:51 PM · Oct 26 ,2025

@爬蟲 / 博客 RSS 訂閱

雲端小仙童 - 基於Python的鏈家北京二手房數據分析

📊 數據集概覽 在上一篇博客中,我們成功爬取了鏈家網的西安二手房數據,現在讓我們來深入分析這些寶貴的數據。數據集包含以下關鍵字段: 標題:房源描述信息 位置:房源所在區域 房屋類型:户型結構 面積:房屋面積(平米) 單價:每平米價格 總價:房屋總價(萬元) 關注:房源被關注次數 🛠️ 技術棧準

數據挖掘 , 開發語言 , 後端開發 , 數據分析 , 爬蟲 , harmonyos , Python

收藏 評論

去碼頭整點薯條 - 爬蟲:越滑越多的動態網頁列表流數據(通過 Ajax 獲取微博個性化推薦內容)

在瀏覽社交媒體時,我們所看的內容彷彿是無窮無盡的。 我們常常滑動到頁面底端,以為沒有內容了,卻發現新的內容又一下子刷新出來。內容越滑越多,這種數據被稱作列表流數據。 有趣的是,當頁面不斷為我們提供新的內容時,網頁卻還是原來的網頁——URL 並沒有改變。這是怎麼回事? 1 Ajax 在同一個頁面中,網頁是如何源源不斷的展現新內容的呢? 如果打開瀏覽器的開發者模式,當我們滑動到頁面底端時,我們可以在

微博 , Ajax , 爬蟲 , Python

收藏 評論

普郎特 - JavaScript Promise 詳解

JavaScript Promise 完全指南:從基礎到進階 一、Promise 構造函數基礎 1.1 基本語法結構 var my_promise = new Promise(function(resolve, reject) { // 執行器函數 if (條件) { resolve('成功值'); } else { reject('失敗值'

node.js , 教程 , 知識 , 爬蟲 , Python

收藏 評論

追風的苦咖啡 - 性能狂飆!國密SSL證書為何比國際算法快30%?

一、算法輕量化與高效能設計 更短密鑰實現同等安全強度 SM2算法採用256位密鑰即可達到RSA-3072位的安全強度,且運算效率提升40%。較短的密鑰顯著降低了數據傳輸量和計算負載,縮短SSL握手時間。 算法架構的優化 SM2基於橢圓曲線密碼學(ECC)改進,單位安全強度遠高於傳統RSA。例如,224位SM2的安全性等同於2048位RSA,而實際

觀點 , 知識 , 爬蟲

收藏 評論

angel - Python爬蟲快速入門,BeautifulSoup基本使用及實踐

導包:pip installbs4 import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win

選擇器 , 後端開發 , beautifulsoup , Css , 爬蟲 , HTML , Python

收藏 評論

馬哥python説 - 【爬蟲軟件】微博採集工具,根據指定博主爬其主頁發佈的帖子數據

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景分析 1.1 開發背景與功能介紹 我是 @馬哥python説 ,一枚10年+程序猿,現全職獨立開發。 曾經和很多同學聊過,他們希望有一個工具,可以把微博指定用户的已發佈帖子的數據採集下來,然後做數據分析使用。為了滿足這類需求,我特意用python開發了這款工具:weibo_user_p

工具軟件 , 數據採集 , 微博採集 , 爬蟲

收藏 評論

Loading - python webdriver-manager 實現selenium 免下載安裝webdriver

selenium在自動化測試中,通常需要使用瀏覽器驅動來與瀏覽器進行交互。然而,手動下載、安裝、以及管理這些驅動非常麻煩,尤其是當驅動版本頻繁更新時。為此,webdriver-manager庫提供了一個極簡的方案,自動幫我們下載、更新和管理驅動,使 Selenium 代碼更簡潔優雅。 webdriver-managergit地址:GitHub - SergeyPirogov/webdriver_m

爬蟲 , selenium , webdriver , Python

收藏 評論

幸福的地圖 - pinterest圖片模糊

精靈圖的使用 Spirit,精靈圖,也叫雪碧圖的用法:解決服務器的過多的請求的問題。   現在的網絡越來越快,網速已經不是人們所需要考慮的第一因素了,而隨之帶來的大量的請求卻是給服務器帶來大量的負荷,Spirit的出現就是為了解決當頁面之中出現大量背景圖的請求時的方案。當網頁之中有大量的圖片,每取一次零碎的圖片資源便向服務器請求一次,這無疑不

服務器 , 雲計算 , 雲原生 , 背景圖 , 爬蟲 , pinterest圖片模糊 , HTML

收藏 評論

WuThreat - WuThreat ITDR 使用AI驅動的ITDR技術解決身份威脅攻擊

什麼是WuThreat身份安全雲? WuThreat 身份安全雲融入身份認證和身份威脅檢測與響應(ITDR)的技術,快速為企業的Web、APP等業務構建一體化多身份場景的認證與安全解決方案。WuThreat在身份認證與威脅檢測領域是全球的創新領導者,在身份認證數據流量中使用AI驅動的身份威脅檢測與響應(ITDR)技術,在業務上真正實現身份認證即身份安全。 WuThreat 身份安全雲

web安全 , 身份驗證 , 爬蟲 , 安全 , 認證授權

收藏 評論

nixidexuegao - API接口測試全攻略:從理論到實踐的深入探索

在當今軟件開發與測試領域中,API(應用程序編程接口)扮演着至關重要的角色。作為軟件系統間交互的橋樑,API的穩定性和可靠性直接影響着整個系統的質量和用户體驗。因此,API接口測試成為了軟件測試工程師必須掌握的關鍵技能。本文將從API接口測試的基礎理論出發,結合實踐案例,深入探討API接口測試的全攻略。 一、API接口測試基礎理論 1.1 什麼是API接口測試? API接口測試是一種軟

API , 電商 , 爬蟲 , Python

收藏 評論

恩爸編程 - Selenium:強大的 Web 自動化測試工具

Selenium:強大的 Web 自動化測試工具 在當今的軟件開發和測試領域,自動化工具的重要性日益凸顯。Selenium 就是一款備受歡迎的 Web 自動化測試工具,它為開發者和測試人員提供了強大的功能和便利。本文將詳細介紹 Selenium 是什麼,它能解決什麼問題,以及其優缺點。 ## 一、Selenium 是什麼 Selenium 是一個用於 Web 應用程序測試的工具集。它主要由三個部

測試 , selenium-webdriver , 爬蟲 , 測試工具 , selenium

收藏 評論

nixidexuegao - 電商API接口在跨境電商中的應用與挑戰

隨着全球互聯網技術的快速發展,跨境電商已成為連接全球消費者與商家的重要橋樑。在這個過程中,電商API接口(應用程序編程接口)發揮了至關重要的作用。API接口不僅提高了跨境電商的運營效率,還增強了安全性和用户體驗。然而,API接口的應用也面臨着一些挑戰。本文將深入探討電商API接口在跨境電商中的應用與挑戰。 一、電商API接口在跨境電商中的應用 數據整合與管理 API接口允許跨境電商平

API , 電商 , 爬蟲 , Python

收藏 評論

程序員一諾python - 【爬蟲開發】爬蟲開發從0到1全知識教程第13篇:scrapy爬蟲框架【附代碼文檔】

🏆🏆🏆教程全知識點簡介:1.Mongodb數據庫包括介紹、mongodb簡單使用(mongodb服務端啓動、啓動mongodb客户端進入mongo shell)。2. scrapy爬蟲框架涵蓋 ip使用、啓動爬蟲、停止爬蟲、scrapyd webapi。3. Gerapy包含通過Gerapy配置管理scrapy項目。4. appium移動端抓取涉及appium自動控制移動設備、appium

數據庫 , 爬蟲 , 後端 , Python

收藏 評論

闖紅燈的獼猴桃 - 隱匿與偽裝:爬蟲如何通過代理IP實現身份偽裝?

在數據驅動的時代背景下,網絡爬蟲技術面臨着日益嚴峻的反爬機制挑戰。住宅代理憑藉其真實的IP資源特性,為爬蟲流量提供了可靠的隱匿解決方案。本文將系統探討如何通過精細化的偽裝策略,使爬蟲流量完美融入正常用户的訪問行為序列。 指紋、行為與系統的三重偽裝 流量指紋的深度偽裝體系 網絡流量在傳輸過程中會留下獨特的協議特徵,這些特徵構成了流量的"指紋",完善的偽裝體系需要從多個層面着手: 精確模擬不同操作

觀點 , 知識 , 爬蟲

收藏 評論

Python技術大本營 - 一個神器,大幅提升爬蟲爬取效率!

在做爬蟲的時候,我們往往可能這些情況: 網站比較複雜,會碰到很多重複請求。 有時候爬蟲意外中斷了,但我們沒有保存爬取狀態,再次運行就需要重新爬取。 還有諸如此類的問題。 那怎麼解決這些重複爬取的問題呢?大家很可能都想到了“緩存”,也就是説,爬取過一遍就直接跳過爬取。 那一般怎麼做呢? 比如我寫一個邏輯,把已經爬取過的 URL 保存到文件或者數據庫裏面,每次爬取之前檢查一下是不是在列表或數據

requests , 爬蟲

收藏 評論

I_am_Alex - IPIDEA代理IP深度測評:構建智能體知識庫的得力助手

1. 智能體知識庫的重要性 我最近在做“歷史大事記”智能體時,踩了個實打實的坑:初期全靠大模型原生知識庫支撐,回答總是“缺斤短兩”:要麼漏了關鍵歷史事件,要麼對人物生卒、傳統習俗的描述模糊不清,甚至連一些廣為人知的紀念日都沒法精準對應。 為了補齊這個短板,我找遍了各種數據源,最終發現維基百科這一“寶藏庫”:它把全年365/366天的內容拆解得明明白白,大到影響

機器學習 , 智能體 , 人工智能 , 爬蟲 , ipidea , 知識庫

收藏 評論

瑞0908 - response返回中文亂碼

返回響應中文是亂碼 可以通過下面代碼解決 response.encoding = 'utf-8' # 確保編碼為UTF-8

亂碼 , requests , 爬蟲

收藏 評論

京東雲開發者 - HTTP請求:requests的進階使用方法淺析 | 京東雲技術團隊

1 背景 上篇文章講解了requests模塊的基礎使用,其中有get、put、post等多種請求方式,使用data、json等格式做為請求參數,在請求體中添加請求頭部信息的常見信息,如:headers、cookies,以及對請求響應的處理方法。接下來講解一下requests的高級用法。 2 進階方法舉例 2.1 requests.request() method:提交方式(get|post); u

HTTP , requests , 爬蟲 , Python

收藏 評論

墨香四溢 - php爬蟲亞馬遜,亞馬遜爬蟲(亞馬遜 api)

摘要 在構建跨境電商數據中台或BI系統時,“數據源”的獲取是第一步也是最關鍵的一步。本文將從技術架構和工程實踐的角度,深度對比三種主流的亞馬遜數據獲取方案:SaaS成品工具、自建分佈式爬蟲系統,以及第三方數據採集API。我們將重點分析它們在系統穩定性、數據實時性、反爬策略、維護成本和集成靈活性等方面的技術差異,為技術負責人和架構師在進行技術選型時提

亞馬遜數據採集 , 架構 , 後端開發 , 自建爬蟲 , 爬蟲 , 網絡爬蟲 , Python

收藏 評論

觀復 - 一條命令配置移動端(Android / iOS)自動化環境

配置adb命令工具 點擊前往Gitee快速下載 - 推薦 點擊前往Gitcode快速下載 - 不推薦,需註冊登錄 下載後解壓,然後配置目錄路徑到path(系統環境變量) 安裝Python 建議:在官網下載安全版本然後安裝,比如當前(2025.3.31)最新的是3.11 建議:創建虛擬環境並激活虛擬環境後,然後使用下面命令安裝。環境隔離可避免與系統環境已有其他項目依賴包衝突。 pip

自動化 , Android , 自動化測試 , 爬蟲 , ios

收藏 評論

馬哥python説 - 【爬蟲工具】小紅書蒲公英批量採集軟件v2.0版,高效篩選優質博主

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景介紹 1.0 爬取目標 眾所周知,蒲公英是xhs推出的優質創作者商業合作服務平台,致力於為品牌和博主提供內容合作服務,可以高效的為品牌匹配出最符合的優質博主。 pgy平台,需要有一定權限的企業資質賬號才能申請開通。開通之後,進入【尋找博主】頁面,即可根據一定的篩選條件過濾出滿足的博主列表,如

gui , 小紅書 , 爬蟲 , Python

收藏 評論

電商數據猿 - 做淘寶客工具 6 年,被商品詳情 API 坑到凌晨改代碼的實戰手記

在電商開發圈摸爬滾打這些年,淘寶商品詳情 API 的 “細節殺” 最讓人頭疼。作為國內電商的標杆平台,它的接口返回裏藏着太多 “反直覺” 的設計 —— 從嵌套五層的規格參數,到藏在促銷信息裏的真實價格,再到忽隱忽現的預售字段,每次對接都像在拆帶密碼的盲盒。今天就把這些年踩過的雷、攢的可落地代碼全抖出來,給做導購工具、商家系統的朋友避避雷。 一、初次翻車:簽名多了個空格,調試到凌晨五點 第一次接[淘

教程 , 爬蟲

收藏 評論

TeamCode - Python 教程:從 Python 爬蟲到數據分析

數據分析是 Python 編程廣泛應用的領域之一,數據分析員藉助 Python 語法簡單明晰、應用範圍廣泛的特性,通過爬蟲、整合數據等多樣化的依賴與函數,進一步提高數據分析的能力與效率。 在這篇教程中,同學將整合之前所學習的 Python 爬蟲技巧,進一步學習如何將所爬取的數據儲存到 CSV 文件中。 學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息: https://z

beautifulsoup , pandas , 數據分析 , 爬蟲 , Python

收藏 評論

闖紅燈的獼猴桃 - 住宅代理還是機房代理?一文讀懂核心差異與適用場景

在網絡數據採集和業務運營中,選擇合適的代理類型直接影響業務效果。本文將深入解析住宅代理和機房代理的核心差異,幫助你做出明智的技術選型。 一、基礎概念:瞭解兩種代理的本質 住宅代理使用真實家庭網絡的IP地址,這些IP由電信、聯通等互聯網服務提供商分配給普通家庭用户。每個IP都對應着真實的物理位置和完整的網絡身份信息,訪問行為與正常家庭用户完全一致。 機房代理(又稱數據中心代理)的IP地址來自雲計算服

觀點 , 知識 , 爬蟲

收藏 評論