技術雑記帳兼日記帳

AWS、Python、Terraformの使い方をコッソリ

スクレイピング・ハッキング・ラボ

python スクレイピング その7

はじめに 今回はScrapyを使用してNPBの種類ごとの歴代最高記録のURLを取得してみた。 準備 Scrapyのインストール $ pip install scrapy Scrapyプロジェクトの作成 $ scrapy startproject npb $ cd npb $ tree . ├── npb │ ├── __init__.py │ ├── items.py │ …

python スクレイピング その6

はじめに 今回は巨人の藤田元司監督のWikiページを画像でコピーする処理を作成した。 準備 sele_headless.py from selenium import webdriver from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverMan…

python スクレイピング その4

はじめに 今回はseleniumでSlashdotを開いて、ブラウザを操作して結果を表示するプログラムを書いてみた。 準備 最初にpipで以下をインストールしておく。 $ pip install selenium $ pip install chromedriver $ pip install chromedriver-binary==90.0.4430…

python スクレイピング その2

はじめに 前回の続きでスクレイピングについて書いていく。 準備 これまた本通りだと芸がないので、はてなブログの「注目」のタイトルとURLを抽出してCSVに出力する処理を作成した。 entryTitle.py import requests from bs4 import BeautifulSoup import cs…

python スクレイピング その1

はじめに この本を買ったので、学習成果をまとめていく。 準備 スクレイピングでWikipediaの「今日は何の日」を取得するんだけど芸がないので、「新しい記事」のリンクのタイトルをすべて取得してみる。 newArticles.py import requests from bs4 import Bea…