Python爬蟲學習筆記(十一) — 爬蟲技巧總結

本文為讀書心得筆記

在Excel VBA實戰技巧:金融數據X網路爬蟲,一書當中,作者透過Excel VBA作為主要的爬蟲工具。但是這些技巧,在Python上也是夠運用的。

本文整理一些書中談到的技術。想了解更多技巧的讀者可以購買此書參考。

書中的範例檔案還提供一份爬蟲心智圖(PDF格式),可以做為複習與學習使用。

爬蟲技巧:

  1. 檢視網頁原始碼->查詢目標關鍵字。 若有目標內容,直接抓取
  2. Chrome 開發者工具->Network->查詢(XHR(非同步)、JS(Javascript)、DOC(文字)、WS(即時資料))這三個項目,找尋該項目下的所有項目內容,通常能找到資料(找到非開放的API)
  3. 使用官方API
  4. CSV或JSON檔案
  5. 使用PostMan測試
  6. 使用Selenium模擬人類行為

檢查反爬蟲:

  1. 使用Chrome無痕模式連線網站,若無法連線或無資料代表有反爬蟲
  2. 使用Quick Javascript Switcher檢查網站是否使用JS

處理反爬蟲策略:

  1. IP限制(403):使用Proxy破解
  2. 動態參數:先取得最新動態參數再抓取
  3. 使用Javascript(或是無法用封包側錄工具抓取):透過Selenium搭配XPath破解(可搭配XPath Helper套件搭配Shift快速抓取 or 開發人員工具)
  4. Captcha驗證碼:用Deep Learning or OCR軟體 or 人工輸入 or OpenCV
  5. 網站API:申請免費或付費帳號

Written by

Machine Learning / Deep Learning / Python / Flutter

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store