Python爬蟲學習筆記(十一) — 爬蟲技巧總結
2 min readApr 17, 2020
本文為讀書心得筆記
在Excel VBA實戰技巧:金融數據X網路爬蟲,一書當中,作者透過Excel VBA作為主要的爬蟲工具。但是這些技巧,在Python上也是夠運用的。
本文整理一些書中談到的技術。想了解更多技巧的讀者可以購買此書參考。
書中的範例檔案還提供一份爬蟲心智圖(PDF格式),可以做為複習與學習使用。
爬蟲技巧:
- 檢視網頁原始碼->查詢目標關鍵字。 若有目標內容,直接抓取
- Chrome 開發者工具->Network->查詢(XHR(非同步)、JS(Javascript)、DOC(文字)、WS(即時資料))這三個項目,找尋該項目下的所有項目內容,通常能找到資料(找到非開放的API)
- 使用官方API
- CSV或JSON檔案
- 使用PostMan測試
- 使用Selenium模擬人類行為
檢查反爬蟲:
- 使用Chrome無痕模式連線網站,若無法連線或無資料代表有反爬蟲
- 使用Quick Javascript Switcher檢查網站是否使用JS
處理反爬蟲策略:
- IP限制(403):使用Proxy破解
- 動態參數:先取得最新動態參數再抓取
- 使用Javascript(或是無法用封包側錄工具抓取):透過Selenium搭配XPath破解(可搭配XPath Helper套件搭配Shift快速抓取 or 開發人員工具)
- Captcha驗證碼:用Deep Learning or OCR軟體 or 人工輸入 or OpenCV
- 網站API:申請免費或付費帳號