tag 爬蟲

標籤
貢獻56
116
07:51 PM · Oct 26 ,2025

@爬蟲 / 博客 RSS 訂閱

糖糖 - 淺嘗一下Node爬蟲吧~

新建一個文件夾,這裏我命名為“爬”。 mkdir pa 初始化一個工程,並安裝相關模塊。 cd pa // 安裝package.json npm init // 安裝cheerio,用來在服務端使用jq語法操作dom npm install cheerio --save 新建文件命名為app.js,按照需求爬取數據,並保存到data.txt。 cons

node.js , cheerio , nodejs爬蟲 , 爬蟲

收藏 評論

馬哥python説 - douyin_search_comment_tool | 2025自研python軟件採集抖音評論區數據

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! ​ 一、背景調研 1.1 開發背景 抖音作為國內流量極為突出的短視頻平台,擁有龐大的用户羣體以及億級以上的日活躍用户,其視頻下方的評論區藴含着豐富的信息價值。在合法合規的前提下,經過充分的研究與探索,為了助力客户能夠更深入地理解消費者對於商品和品牌的看法與反饋,以更有效地把握消費者的喜好、需求

gui , 軟件開發 , 數據採集 , python爬蟲 , 爬蟲

收藏 評論

去碼頭整點薯條 - 爬蟲:越滑越多的動態網頁列表流數據(通過 Ajax 獲取微博個性化推薦內容)

在瀏覽社交媒體時,我們所看的內容彷彿是無窮無盡的。 我們常常滑動到頁面底端,以為沒有內容了,卻發現新的內容又一下子刷新出來。內容越滑越多,這種數據被稱作列表流數據。 有趣的是,當頁面不斷為我們提供新的內容時,網頁卻還是原來的網頁——URL 並沒有改變。這是怎麼回事? 1 Ajax 在同一個頁面中,網頁是如何源源不斷的展現新內容的呢? 如果打開瀏覽器的開發者模式,當我們滑動到頁面底端時,我們可以在

微博 , Ajax , 爬蟲 , Python

收藏 評論

明未為洺 - 無頭瀏覽器初體驗-事件點擊

以下功能基於puppeteer實現 中文文檔 英文文檔 引入插件,並且打開啓動 const puppeteer = require('puppeteer'); (async () = { browser = await puppeteer.launch({ headless: true, // defaultViewport: { width

puppeteer , node.js , 爬蟲

收藏 評論

體育數據服務商 - 看球總刷比分?好奇數據哪來的?你該認識一下「體育API」了

看球時總忍不住一遍遍刷新最新比分?好奇手機裏的體育應用為何總能精準推送你關心的賽事動態?這一切流暢體驗的背後,往往站着一個低調的“數據搬運工”——體育 API。 簡單來説,體育 API 就像是一條高效運轉的數據流水線,它將全球各地的賽事信息——從比分、賽程到球員統計——打包成標準格式,供開發者直接調用。這意味着,無論是你常用的體育資訊 APP,還是專業俱樂部的戰術分析系統,都不必再“手動”收集信息

運維 , 數據庫 , 爬蟲

收藏 評論

電商數據猿 - 做義烏購批發工具 4 年,被商品詳情 API 坑到連夜改代碼的實戰手記

在小商品批發開發領域摸爬多年,義烏購商品詳情 API 的 “批發基因” 藏得極深 —— 從混雜着起訂量的價格區間,到關聯實體商鋪的特殊字段,再到忽明忽暗的簽名規則,每一次對接都像在解讀小商品市場的 “暗語”。作為紮根義烏購的開發者,我踩過的坑能編一本手冊,今天就把實戰代碼和避坑指南全抖出來,給做採購系統、供應鏈工具的朋友鋪路。 一、初次翻車:簽名算法 “二選一”,調試到凌晨四點 第一次對接義烏購

教程 , 爬蟲

收藏 評論

追風的苦咖啡 - SSL證書過期怎麼辦?續費與更換的注意事項

SSL證書過期後的處理方式主要是續費原有證書或重新申請新證書,具體注意事項如下: 續簽SSL證書,優惠入口⬇️ https://www.joyssl.com/certificate/select/joyssl-dv-single-st... 一、續費原有證書 續費流程: SSL證書過期後,最快捷的方式是續費原有證書。由於您已通過初次申請的資料審核,續費時通常無需重新提交企業

觀點 , 資訊 , 服務器 , mariadb , 爬蟲

收藏 評論

雲輕雨細 - 爬蟲是怎麼工作的?從原理到用途

前言 在信息爆炸的互聯網時代,想從海量網頁中收集數據,靠人工一個個複製粘貼顯然不現實。而爬蟲程序,就像一位不知疲倦的“網頁探險家”,能自動穿梭在網頁之間,把需要的信息篩選、收集起來。今天就給大家分享一些爬蟲的工作原理、實際用處,還有最重要的“爬取規矩”。 一、爬蟲是怎麼“逛”網頁的? 要理解爬蟲,先想象一個場景:你拿到一張藏寶圖,圖上標着“路徑和寶藏”,每一個藏寶點的周圍都有幾條小路通向其他的藏寶

爬蟲 , 網絡爬蟲 , Python

收藏 評論

普郎特 - # Python多進程深度解析:Windows下的進程創建與數據傳遞機制

前言 在使用 Python 的 multiprocessing 模塊時,你是否遇到過這些困惑: 為什麼子進程能訪問 self.url 和 self.headers 這些實例屬性? 子進程是如何獲取類方法、類屬性和模塊函數的? 為什麼數據庫連接不能放在 __init__ 中? if __name__ == '__main__': 到底保護了什麼? 本文將深入剖析 Windows 平台下

教程 , 知識 , 數據庫 , 爬蟲 , Python

收藏 評論

闖紅燈的獼猴桃 - 住宅代理在社交媒體營銷中的技術實現

住宅代理是一種使用真實家庭網絡環境的代理技術,它使用互聯網服務提供商(ISP)分配的IP地址,這使得社交媒體平台很難檢測和封鎖這些流量。與數據中心代理相比,住宅代理更類似於普通用户的網絡連接,因此更加隱蔽和可靠。 住宅代理主要分為兩類:動態住宅代理和靜態住宅代理。動態住宅代理的IP地址會按一定頻率變化,而靜態住宅代理則使用固定的住宅IP地址。兩者在社交媒體營銷中各有優勢,可以結合使用以實現最佳效果

HTTPS , 知識 , 爬蟲 , 安全

收藏 評論

馬哥python説 - 【GUI軟件】用python開發的油管博主紅人採集工具,一鍵批量爬取,含國家、郵箱等

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景分析 1.1 開發背景 大家都知道,YouTube(以下簡稱油管)是全球最大的在線視頻社交平台,擁有億萬用户和龐大的日活躍用户羣體。平台上來自不同國家和地區的創作者們,藴藏着巨大的商業潛力。通過分析油管的用户數據,客户能夠更深入地掌握這些創作者的最新動態和商業價值,從而更有效地推動業

gui , 數據採集 , python爬蟲 , 爬蟲 , youtube

收藏 評論

馬哥python説 - 【GUI軟件】調用YouTube的API接口,採集關鍵詞搜索結果,並封裝成界面工具!

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景介紹 1.1 爬取目標 我是@馬哥python説,一名10年程序猿。 我用Python獨立開發了一款爬蟲軟件,作用是:通過搜索關鍵詞采集YouTube的搜索結果,包含14個關鍵字段:關鍵詞,頁碼,視頻標題,視頻id,視頻鏈接,發佈時間,視頻時長,頻道名稱,頻道id,頻道鏈接,播放

數據採集 , python爬蟲 , youtube-api , 爬蟲 , youtube

收藏 評論

馬哥python説 - 【爬蟲工具】2025微博採集軟件,根據搜索關鍵詞批量爬帖子,突破50頁限制!

本軟件工具僅限於學術交流使用,嚴格遵循相關法律法規,符合平台內容合法合規性,禁止用於任何商業用途! 一、背景分析 1.1 開發背景 微博是國內非常流行的社交媒體平台,內容主要以文字和圖片為主,在實時性和KOL關注熱度方面尤為突出。廣大網友在微博平台大量輸出自己的觀點、看法,組成了一個活躍度極高的社區羣體。同時,我本人也發現,每次熱點事件爆發的時候,微博熱搜也是所有媒體平台裏最先曝光的平台(其

工具軟件 , 微博採集 , python爬蟲 , 爬蟲 , 網絡爬蟲

收藏 評論

程序員一諾python - 【爬蟲開發】爬蟲開發從0到1全知識教程第12篇:scrapy爬蟲框架【附代碼文檔】

🏆🏆🏆教程全知識點簡介:1.Mongodb數據庫包括介紹、mongodb簡單使用(mongodb服務端啓動、啓動mongodb客户端進入mongo shell)。2. scrapy爬蟲框架涵蓋 ip使用、啓動爬蟲、停止爬蟲、scrapyd webapi。3. Gerapy包含通過Gerapy配置管理scrapy項目。4. appium移動端抓取涉及appium自動控制移動設備、appium

數據庫 , 爬蟲 , 後端 , Python

收藏 評論

Odin - 深入研究:淘寶天貓商品詳情查詢API詳解

淘寶開放平台提供了一組API接口,用於獲取淘寶商品的詳細信息。通過這些接口,開發者可以在自己的應用或系統中集成淘寶商品數據,實現商品展示、搜索、價格比較等功能。以下是一些常見的淘寶商品詳情數據API接口及其功能: item_get:獲取單個商品的詳細信息,包括商品標題、價格、描述、圖片、屬性、庫存等。 item_review:獲取商品的評論信息,包括評論內容、評分、用户信息等。 item_fee:

數據挖掘 , python爬蟲 , 數據分析 , 爬蟲

收藏 評論

itbrowser - chrome瀏覽器二次開發和chromium源碼編譯官方教程中文版

chrome瀏覽器二次開發和chromium源碼編譯官方教程中文版(windows) 其他平台的説明請參見 獲取代碼 頁面中的鏈接。 谷歌員工專用説明 您是 Google 員工嗎?請改為查看 go/building-chrome-win。 系統要求 一台 x86-64 架構的機器,至少 8GB 內存,建議使用超過 16GB 內存。 至少 100GB 的可用磁盤空間,且硬盤必須為 NTFS 格

瀏覽器 , 指紋 , 爬蟲

收藏 評論

universe_king - reqable 在 Firefox 瀏覽器無法抓包和訪問網絡

開啓 reqable 之後,Firefox 就無法訪問網絡了,會顯示「有軟件正在阻止 Firefox 安全地連接至此網站」 reqable.com 很像是一個安全(連接加密)的網站,但我們未能與它建立安全連接。這個問題是由 Reqable CA (Feb 8, 2025, EC541EC3) 所造成,它是您的計算機或您所在網絡中的軟件。 您可以做什麼? 如果您的防病毒軟件包含掃描加

瀏覽器 , firefox , 爬蟲 , 後端 , Python

收藏 評論

nixidexuegao - API接口設計最佳實踐:打造高效、易用的API服務

在當今數字化時代,API(應用程序編程接口)已成為連接不同系統和服務的核心組件。一個高效、易用的API服務不僅可以提升用户體驗,還能大幅提高企業的運營效率。然而,設計優秀的API接口並非易事,它涉及多個方面的考量和策略。本文將從API設計的核心原則、接口結構、安全性、性能優化、文檔編寫、版本控制、錯誤處理等多個角度,深入探討API接口設計的最佳實踐,幫助開發者打造高效、易用的API服務。 一、AP

API , 爬蟲 , 接口 , Python

收藏 評論

nixidexuegao - API接口與物聯網:構建萬物互聯的基石

在數字化和智能化浪潮的推動下,物聯網(IoT)正以前所未有的速度改變着我們的世界。從智能家居到智慧城市,從工業4.0到智慧農業,物聯網的應用場景日益豐富,萬物互聯的時代已經到來。而在這一宏偉藍圖的背後,API接口(應用程序編程接口)扮演着至關重要的角色,成為構建萬物互聯的基石。 一、API接口與物聯網的緊密聯繫 API接口是連接不同軟件系統、促進數據共享與功能交互的關鍵技術組件。在物聯網中,

API , 電商 , 爬蟲 , 接口

收藏 評論

nixidexuegao - 原生API流量分析接口:加速企業API保護

在數字化轉型的大潮中,應用程序接口(API)已經成為連接不同系統、應用和服務的橋樑,它們在企業內部及與外部夥伴的數據交換中發揮着至關重要的作用。然而,隨着API數量的快速增長,API安全也面臨着前所未有的挑戰。為了應對這些挑戰,阿卡邁技術公司(Akamai Technologies, Inc.)推出了原生API流量分析接口,這一創新技術旨在簡化並加快企業API保護,確保企業在享受API帶來的便利的

API , 電商 , 爬蟲 , 接口

收藏 評論

極限實驗室 - 如何用 Scrapy 爬取網站數據並在 Easysearch 中進行存儲檢索分析

做過數據分析和爬蟲程序的小夥伴想必對 Scrapy 這個爬蟲框架已經很熟悉了。今天給大家介紹下,如何基於 Scrapy 快速編寫一個爬蟲程序並利用 Easysearch 儲存、檢索、分析爬取的數據。我們以極限科技的官網 Blog 為數據源,做下實操演示。 安裝 scrapy 使用 Scrapy 可以快速構建一個爬蟲項目,從目標網站中獲取所需的數據,並進行後續的處理和分析。 pip install

搜索引擎 , scrapy , 爬蟲

收藏 評論

linong - 探索 IP 代理服務的類型及應用場景,以及可視化數據抓取工具簡介

在我們日常工作中有很多場景需要使用代理服務,比如説前端開發環境的 proxy 正向代理,比如説常見的 nginx 反向代理,比如常見的 cdn 等等。但是還有很多場景也可以使用代理服務。 今天我給大家介紹一下不同類型的 IP 代理服務適用於何種場景,最好可以教會大家如何使用 IP 代理服務。 請注意,雖然 IP 代理功能強大,我們應始終秉持合法、合規的原則使用,尊重網絡規則,不濫用技術侵犯他人

node.js , 代理 , 爬蟲 , 前端 , Javascript

收藏 評論

小小張説故事 - Python爬蟲深度優化:Scrapy庫的高級使用和調優

在我們前面的文章中,我們探索瞭如何使用Scrapy庫創建一個基礎的爬蟲,瞭解瞭如何使用選擇器和Item提取數據,以及如何使用Pipelines處理數據。在本篇高級教程中,我們將深入探討如何優化和調整Scrapy爬蟲的性能,以及如何處理更復雜的抓取任務,如登錄,處理Cookies和會話,以及避免爬蟲被網站識別和封鎖。 一、併發和延遲 Scrapy使用異步網絡庫Twisted來處理網絡通信,可以實現高

scrapy , 爬蟲 , Python

收藏 評論

小小張説故事 - Python爬蟲進階:使用Scrapy庫進行數據提取和處理

在我們的初級教程中,我們介紹瞭如何使用Scrapy創建和運行一個簡單的爬蟲。在這篇文章中,我們將深入瞭解Scrapy的強大功能,學習如何使用Scrapy提取和處理數據。 一、數據提取:Selectors和Item 在Scrapy中,提取數據主要通過Selectors來完成。Selectors基於XPath或CSS表達式的查詢語言來選取HTML文檔中的元素。你可以在你的爬蟲中使用response對象

scrapy , 爬蟲 , Python

收藏 評論