Python爬蟲學習筆記(十一) — 爬蟲技巧總結

2 min readApr 17, 2020

本文為讀書心得筆記

在Excel VBA實戰技巧：金融數據X網路爬蟲，一書當中，作者透過Excel VBA作為主要的爬蟲工具。但是這些技巧，在Python上也是夠運用的。

本文整理一些書中談到的技術。想了解更多技巧的讀者可以購買此書參考。

書中的範例檔案還提供一份爬蟲心智圖(PDF格式)，可以做為複習與學習使用。

Excel VBA實戰技巧｜金融數據x網路爬蟲

www.books.com.tw

爬蟲技巧：

檢視網頁原始碼->查詢目標關鍵字。若有目標內容，直接抓取
Chrome 開發者工具->Network->查詢(XHR(非同步)、JS(Javascript)、DOC(文字)、WS(即時資料))這三個項目，找尋該項目下的所有項目內容，通常能找到資料(找到非開放的API)
使用官方API
CSV或JSON檔案
使用PostMan測試
使用Selenium模擬人類行為

檢查反爬蟲：

處理反爬蟲策略：

IP限制(403)：使用Proxy破解
動態參數：先取得最新動態參數再抓取
使用Javascript(或是無法用封包側錄工具抓取)：透過Selenium搭配XPath破解（可搭配XPath Helper套件搭配Shift快速抓取 or 開發人員工具）
Captcha驗證碼：用Deep Learning or OCR軟體 or 人工輸入 or OpenCV
網站API：申請免費或付費帳號