Crawling

想要用 Python 實作網路爬蟲程式的方法有兩種：使用 requests 套件或 selenium 套件。兩個套件的差異在於 requests 套件是使用最基礎的 GET 和 POST 方法和 server 溝通，好處在於它的速度快、作法單純，壞處是必須處裡來自於網站的一切資料傳輸動作、Cookies Handling、甚至更複雜的 JS 渲染、網頁程式互動等複雜的動作。如果要爬的目標網站內容比較單純，或甚至可以透過 API 取的資料，那可以考慮使用 requests 套件。不過現在的網站設計越來越複雜，本篇使用的 selenium 套件則是透過控制瀏覽器 (本篇使用 chromedriver)，讓瀏覽器為我們處裡上面提到的複雜動作，例如登入帳號之後的 cookies handling、表單填寫並送出 POST request 或是 JS 渲染後的網站動作，讓我們模擬實際操作網站的方式進行網站爬蟲。本篇目前不是完整的爬蟲程式教學，只是筆記一些關於使用 Selenium 套件撰寫爬蟲程式的方法。目錄如何取得 HTML 的 attribute (how to get attribute of element) 實作捲動畫面 (Scrolling) ▍如何取得 HTML 的 attribute (how to...

Charles Note

Tag Crawling

Python / 使用 Selenium 撰寫網路爬蟲程式 (chromedriver)