@網頁爬蟲

Stories List
@fulade

【Python 1-2】Visual Studio Code(VSCode) 配置 Python開發環境

使用 VSCode 作為開發Python的IDE工具 IDE(Integrated Development Environment, 集成開發環境),目前支持Python的IDE有很多。有PyCharm、Eclipse、Atom、Anaconda、Sublime Text等等。我個人更喜歡使用 Visual Studio Code 也就是 VSCode。如果大家有自己喜歡的IDE工具,盡情享用!

fulade Avatar

@fulade

Nickname 弗拉德

@codists

翻譯:《實用的Python編程》01_05_Lists

目錄 | 上一節 (1.4 字符串) | 下一節 (1.6 文件) 1.5 列表 本節介紹 Python 原始數據類型列表(list)。 列表是一種有序的集合。 創建列表 使用方括號 [] 來定義列表字面量。 names = [ 'Elwood', 'Jake', 'Curtis' ] nums = [ 39, 38, 42, 65, 111] 有時候,列表也可以通過其它方法創建。例如:使用字符串

codists Avatar

@codists

Nickname codists

@chinesehuazhou

為什麼 Python 的 f-string 可以連接字符串與數字?

本文出自“Python為什麼”系列,歸檔在 Github 上:https://github.com/chinesehuazhou/python-whydo 毫無疑問,Python 是一門強類型語言。強類型語言。強類型語言!(關於強弱類型話題,推薦閲讀這篇 技術科普文) 這就意味着,不同類型的對象通常需要先做顯式地類型轉化, 然後才能進行某些操作。 下面以字符串和數字為例,看看強行操作會產生什

chinesehuazhou Avatar

@chinesehuazhou

Nickname 豌豆花下貓

@codists

翻譯:《實用的Python編程》02_02_Containers

目錄 | 上一節 (2.1 數據類型) | 下一節 (2.3 格式化) 2.2 容器 本節討論列表(list),字典(dict)和集合(set)。 概述 通常,程序必須處理許多對象。 股票的投資組合 股票價格表 這裏有三種主要的選擇(譯註:數據結構)可以使用: 列表。有序的數據。 字典。無序的數據。 集合。互異且無序的數據。 把列表當作容器 當數據順序很重要時,請使用列表。記住,

codists Avatar

@codists

Nickname codists

@codists

翻譯:《實用的Python編程》02_04_Sequences

目錄| 上一節 (2.3 格式化) | 下一節 (2.5 Collections模塊) 2.4 序列 序列數據類型 Python 有三種序列數據類型。 字符串:如 'Hello'。字符串是字符序列 列表:如 [1, 4, 5]。 元組:如 ('GOOG', 100, 490.1)。 所有的序列都是有序的,由整數進行索引,並且具有長度。 a = 'Hello'

codists Avatar

@codists

Nickname codists

@huli_5f06b98ab5a44

手把手教你爬取優酷電影信息 -1

爬蟲的製作主要分為三個方面 1、加載網頁結構 2、解析網頁結構,轉變為符合需求的數據實體 3、保存數據實體(數據庫,文本等) 在實際的編碼過程中,找到了一個好的類庫“HtmlAgilityPack”。 介紹: 官網:http://html-agility-pack.net/... Html Agility Pack源碼中的類大概有28個左右,其實不算一個很複雜的

huli_5f06b98ab5a44 Avatar

@huli_5f06b98ab5a44

Nickname happlyfox

@huli_5f06b98ab5a44

手把手教你爬取優酷電影信息-2

上一章節中我們實現了對優酷單頁面的爬取,簡單進行回顧一下,使用HtmlAgilityPack庫,對爬蟲的爬取一共分為三步 爬蟲步驟 加載頁面 解析數據 保存數據 繼第一篇文檔後的爬蟲進階,本文章主要是對上一篇的進階。實現的功能主要為: 1、爬取電影類別列表 2、循環每個類別的電影信息,對每個類別的信息分頁爬取 3、爬取的數據保存到數據

huli_5f06b98ab5a44 Avatar

@huli_5f06b98ab5a44

Nickname happlyfox

@zhao_59106344e870e

全國企業統一社會信用代碼(爬蟲)工商

什麼是統一社會信用代? 法人和其他組織統一社會信用代碼相當於讓法人和其他組織擁有了一個全國統一的“身份證號”,也就是説公司名可能變,統一社會信用代碼卻永遠不變。 我已經收錄了1.4億條統一社會信用代碼。 官網全國估算收錄近1.5億條左右。 統一社會信用代有什麼用? 統一社會信用代既然是企業的“身份證”,那麼通過統一社會信用代就可以在任何平台搜到該企業信息,例如企查查,天眼查,統一社會信用代永遠不

zhao_59106344e870e Avatar

@zhao_59106344e870e

Nickname 趙琛

@heimachengxuyuan_5d64e8c20b879

常見的反爬蟲技術有哪些?如何防止別人爬自己的網站?

搜索引擎可以通過爬蟲抓取網頁信息,同時也有很多企業通過爬蟲獲取其他平台的信息用於數據分析或者內容優化,但是對於自身網站有些頁面或者信息並不希望被爬蟲抓取,那我們如何來實現反爬蟲技術呢?如何防止別人爬自己的網站呢? 爬蟲不僅會佔用大量的網站流量,造成有真正需求的用户無法進入網站,同時也可能會造成網站關鍵信息的泄漏,所以為了避免這種情況發生網站開發工程師必須掌握相應的反爬蟲技術。下面為大家提供幾種可

heimachengxuyuan_5d64e8c20b879 Avatar

@heimachengxuyuan_5d64e8c20b879

Nickname 妙蛙種子

@fuzhengwei

爬蟲大佬,把他總結的正則表達式使用給我了!

作者:小傅哥 博客:https://bugstack.cn 沉澱、分享、成長,讓自己和他人都能有所收穫!😄 一、前言 編程總在實踐中出結果! 正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。 正則引擎主要可以分為兩大類:一種是DFA

fuzhengwei Avatar

@fuzhengwei

Nickname 小傅哥

@_613389d657e51

監控網頁內容變化,語音播放更新內容

新安裝的中文版Windows11系統,發現語音朗讀時只支持英文,無法朗讀中文內容。同樣的軟件在win10下是可以正常朗讀中文的,因此判斷為系統語言設置問題。分享一下具體語言設置和中文朗讀測試方法。 1、在系統設置窗口,找到並打開“時間和語言”,選擇子項“語言和區域”。如果是英文版系統,則點擊【添加語言】添加簡體中文。 2、點擊”中文簡體“欄右邊的菜單項,打開【語言選項】。

_613389d657e51 Avatar

@_613389d657e51

Nickname aゞ木頭軟件_ゞ