tag 網頁爬蟲

標籤
貢獻18
71
03:12 AM · Oct 27 ,2025

@網頁爬蟲 / 博客 RSS 訂閱

codists - 翻譯:《實用的Python編程》01_05_Lists

目錄 | 上一節 (1.4 字符串) | 下一節 (1.6 文件) 1.5 列表 本節介紹 Python 原始數據類型列表(list)。 列表是一種有序的集合。 創建列表 使用方括號 [] 來定義列表字面量。 names = [ 'Elwood', 'Jake', 'Curtis' ] nums = [ 39, 38, 42, 65, 111] 有時候,列表也可以通過其它方法創建。例如:使用字符串

網頁爬蟲 , 人工智能 , 數據結構與算法 , 後端 , Python

收藏 評論

aゞ木頭軟件_ゞ - 監控網頁內容變化,語音播放更新內容

新安裝的中文版Windows11系統,發現語音朗讀時只支持英文,無法朗讀中文內容。同樣的軟件在win10下是可以正常朗讀中文的,因此判斷為系統語言設置問題。分享一下具體語言設置和中文朗讀測試方法。 1、在系統設置窗口,找到並打開“時間和語言”,選擇子項“語言和區域”。如果是英文版系統,則點擊【添加語言】添加簡體中文。 2、點擊”中文簡體“欄右邊的菜單項,打開【語言選項】。

提醒 , 網頁爬蟲 , 語音合成

收藏 評論

小傅哥 - 爬蟲大佬,把他總結的正則表達式使用給我了!

作者:小傅哥 博客:https://bugstack.cn 沉澱、分享、成長,讓自己和他人都能有所收穫!😄 一、前言 編程總在實踐中出結果! 正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。 正則引擎主要可以分為兩大類:一種是DFA

網頁爬蟲 , JAVA , 正則表達式 , 程序員

收藏 評論

妙蛙種子 - 常見的反爬蟲技術有哪些?如何防止別人爬自己的網站?

搜索引擎可以通過爬蟲抓取網頁信息,同時也有很多企業通過爬蟲獲取其他平台的信息用於數據分析或者內容優化,但是對於自身網站有些頁面或者信息並不希望被爬蟲抓取,那我們如何來實現反爬蟲技術呢?如何防止別人爬自己的網站呢? 爬蟲不僅會佔用大量的網站流量,造成有真正需求的用户無法進入網站,同時也可能會造成網站關鍵信息的泄漏,所以為了避免這種情況發生網站開發工程師必須掌握相應的反爬蟲技術。下面為大家提供幾種可

網頁爬蟲

收藏 評論

趙琛 - 全國企業統一社會信用代碼(爬蟲)工商

什麼是統一社會信用代? 法人和其他組織統一社會信用代碼相當於讓法人和其他組織擁有了一個全國統一的“身份證號”,也就是説公司名可能變,統一社會信用代碼卻永遠不變。 我已經收錄了1.4億條統一社會信用代碼。 官網全國估算收錄近1.5億條左右。 統一社會信用代有什麼用? 統一社會信用代既然是企業的“身份證”,那麼通過統一社會信用代就可以在任何平台搜到該企業信息,例如企查查,天眼查,統一社會信用代永遠不

數據挖掘 , 網頁爬蟲 , JAVA , Python

收藏 評論

happlyfox - 手把手教你爬取優酷電影信息-2

上一章節中我們實現了對優酷單頁面的爬取,簡單進行回顧一下,使用HtmlAgilityPack庫,對爬蟲的爬取一共分為三步 爬蟲步驟 加載頁面 解析數據 保存數據 繼第一篇文檔後的爬蟲進階,本文章主要是對上一篇的進階。實現的功能主要為: 1、爬取電影類別列表 2、循環每個類別的電影信息,對每個類別的信息分頁爬取 3、爬取的數據保存到數據

網頁爬蟲 , xpath , c# , 多線程

收藏 評論

happlyfox - 手把手教你爬取優酷電影信息 -1

爬蟲的製作主要分為三個方面 1、加載網頁結構 2、解析網頁結構,轉變為符合需求的數據實體 3、保存數據實體(數據庫,文本等) 在實際的編碼過程中,找到了一個好的類庫“HtmlAgilityPack”。 介紹: 官網:http://html-agility-pack.net/... Html Agility Pack源碼中的類大概有28個左右,其實不算一個很複雜的

網頁爬蟲 , xpath , c#

收藏 評論

codists - 翻譯:《實用的Python編程》02_04_Sequences

目錄| 上一節 (2.3 格式化) | 下一節 (2.5 Collections模塊) 2.4 序列 序列數據類型 Python 有三種序列數據類型。 字符串:如 'Hello'。字符串是字符序列 列表:如 [1, 4, 5]。 元組:如 ('GOOG', 100, 490.1)。 所有的序列都是有序的,由整數進行索引,並且具有長度。 a = 'Hello'

python3.x , 網頁爬蟲 , 人工智能 , 數據結構和算法 , 後端

收藏 評論

codists - 翻譯:《實用的Python編程》02_02_Containers

目錄 | 上一節 (2.1 數據類型) | 下一節 (2.3 格式化) 2.2 容器 本節討論列表(list),字典(dict)和集合(set)。 概述 通常,程序必須處理許多對象。 股票的投資組合 股票價格表 這裏有三種主要的選擇(譯註:數據結構)可以使用: 列表。有序的數據。 字典。無序的數據。 集合。互異且無序的數據。 把列表當作容器 當數據順序很重要時,請使用列表。記住,

容器 , 網頁爬蟲 , 人工智能 , 數據結構與算法 , Python

收藏 評論

豌豆花下貓 - 為什麼 Python 的 f-string 可以連接字符串與數字?

本文出自“Python為什麼”系列,歸檔在 Github 上:https://github.com/chinesehuazhou/python-whydo 毫無疑問,Python 是一門強類型語言。強類型語言。強類型語言!(關於強弱類型話題,推薦閲讀這篇 技術科普文) 這就意味着,不同類型的對象通常需要先做顯式地類型轉化, 然後才能進行某些操作。 下面以字符串和數字為例,看看強行操作會產生什

網頁爬蟲 , 算法 , c , 後端 , Python

收藏 評論

codists - 翻譯:《實用的Python編程》01_06_Files

目錄 | 上一節(1.5 列表) | 下一節 (1.7 函數) 1.6 文件管理 大多數的程序需要從某處讀取輸入。本節討論文件訪問。 文件輸入和輸出 打開一個文件: f = open('foo.txt', 'rt') # Open for reading (text) g = open('bar.txt', 'wt') # Open for writing (text) 讀取所有的

網頁爬蟲 , 人工智能 , 數據結構與算法 , 後端 , Python

收藏 評論

import_hello - BeautifulSoup 使用指北 - 0x03_搜索解析樹

GitHub@orca-j35,所有筆記均託管於 python_notes 倉庫。 歡迎任何形式的轉載,但請務必註明出處。 參考: https://www.crummy.com/softwa... 概述 BeautifulSoup 中定義了許多搜索解析樹的方法,但這些方法都非常類似,它們大多采用與 find_all() 相同的參數: name、attrs、string、limit 和

網頁爬蟲 , beautifulsoup , Python

收藏 評論

弗拉德 - 【Python 1-2】Visual Studio Code(VSCode) 配置 Python開發環境

使用 VSCode 作為開發Python的IDE工具 IDE(Integrated Development Environment, 集成開發環境),目前支持Python的IDE有很多。有PyCharm、Eclipse、Atom、Anaconda、Sublime Text等等。我個人更喜歡使用 Visual Studio Code 也就是 VSCode。如果大家有自己喜歡的IDE工具,盡情享用!

python3 , 網頁爬蟲 , python2.7 , 後端 , Python

收藏 評論

zhshch - Golang 爬蟲教程 | 解決反爬問題 | 做一個文明的爬蟲

本文首發於 https://imagician.net/archives/93/ 。歡迎到我的博客 https://imagician.net/ 瞭解更多。 前排提示:本文是一個入門級教程,講述基本的爬蟲與服務器關係。諸如無頭瀏覽器、js挖取等技術暫不討論。 面對大大小小的爬蟲應用,反爬是一個經久不衰的問題。網站會進行一些限制措施,以阻止簡單的程序無腦的獲取大量頁面,這會對網站造成極大的請求壓力。

網頁爬蟲 , scrapy , pyspider , go , Python

收藏 評論

GeoffZhu - NodeJs爬蟲框架-Spider

gz-spider 一個基於Puppeteer和Axios的NodeJs爬蟲框架 源碼倉庫 為什麼需要爬蟲框架 爬蟲框架可以簡化開發流程,提供統一規範,提升效率。一套優秀的爬蟲框架會利用多線程,多進程,分佈式,IP池等能力,幫助開發者快速開發出易於維護的工業級爬蟲,長期受用。 特性 可配置代理 支持任務重試 支持Puppeteer 異步隊列服務友好 多進程友好 安裝 npm i gz

框架 , node.js , nodejs爬蟲 , 網頁爬蟲 , Javascript

收藏 評論

小一 - 爬蟲實戰--拿下最全租房數據 | 附源碼

優秀不夠,那就要無可替代! 點贊再看,養成好習慣 Python版本3.8.0,開發工具:Pycharm 寫在前面的話 老規矩,目前為止,你應該已經瞭解爬蟲的三個基本小節: 爬蟲的原理和流程 爬蟲的兩種實現方式 通過 BeautifulSoup 解析網頁源碼 不瞭解的自行點進去複習。 上一篇的實戰只是給大家作為一個練手,數據內容比較少,且官網也有對應的 A

網頁爬蟲 , beautifulsoup , 後端 , Python

收藏 評論

neveryield - 之四--使用 selenium 抓取和分析股票數據

本文為系列文章 "從入門到勸退" 第四篇,同時也可作為上一篇 puppeteer應用 的後續。 本篇讀者對象:python初級用户,想學習爬蟲或數據抓取的同學。想了解 selinum 和 beautifulsoup 使用的用户 背景介紹: python 長於數據處理,有一些非常優秀的庫如numpy,pandas,那搞個例子實驗一下,本人對經濟方面有些興趣,於是就拿股票行情數據分析下,通

網頁爬蟲 , beautifulsoup , Python

收藏 評論

白露未晞 - 聽説想了解一個人要從爬取她(他)的所有微博開始呢~

原文鏈接 聽説想了解一個人要從爬取她(他)的所有微博開始呢~​mp.weixin.qq.com 導語 既然你已經點進來了,那我就直説吧,標題其實是我瞎編的,但套路你點進來學習的我是真心的。 前兩天發了篇文章: 嘿嘿,之前開源的模擬登錄工具包開源文檔上線啦~ 從閲讀量可以看出來了,很多小夥伴對這玩意並不感興趣。看來還是得多回歸回歸老本行,寫點有趣的腳本,才能套路各位過來學習呀。今天的小目標是寫個小

微博 , 網頁爬蟲 , python爬蟲 , 微博登陸

收藏 評論

鼠與我 - python爬蟲requests&BeautifulSoup

requests模塊介紹 相對於python自帶的urllib模塊,requests模塊提供了相對更高層的api來進行網頁訪問的工作。 對於requests模塊,使用很簡單,一般我們會用到兩個函數: requests.get(url,params=None,**kwargs) 這裏的params是我們要傳入的query,它的格式是dict。 requests.post(url,data=No

網頁爬蟲 , beautifulsoup , requests , Python

收藏 評論

娜娜明 - BeautifulSoup庫詳解

什麼是BeautifulSoup Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式. 多看官方文檔https://beautifulsoup.readthedocs.io/zh_CN/latest/ 通過例子來講解bs庫的用法 from bs4 import BeautifulSoup ​

網頁爬蟲 , beautifulsoup

收藏 評論

rockswang - 微軟小冰的顏值鑑定接口

把我的老鐵機器人的顏值鑑定接口源碼放出來,邏輯都在execute函數裏面,看不懂也不解釋了。 const sharp = require('sharp') const _ = require('lodash') const { sendMsg, Recent, localPic } = require('../qq_api') const { rp, UA, auraCdChk, num } =

nodejs爬蟲 , 網頁爬蟲 , 小冰 , 人工智能 , 逆向工程

收藏 評論

瑞0908 - Scrapy 框架入門簡介

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。 框架的力量,用户只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。 Scrapy 使用了 Twisted'twɪstɪd異步網絡框架來處理網絡通訊,可以加快我們的下載速度,不用自己去實現異步框架,並且包含了各種中間件接口,可以靈活的完成

網頁爬蟲 , yield , scrapy , Python

收藏 評論