今日から始めるスクレイピング
2022/10/07
こんにちは!米岡です。
今回はスクレイピングについて書いていきたいと思います。
スクレイピングとはなにか
スクレイピングとはなにか知っていますか?
そのまま言葉の意味を調べると
スクレイピング
データを収集した上で利用しやすく加工すること
と出ますが、一般的にはウェブスクレイピングの事を指します。
つまり
「WEBサイトで収集した情報を利用しやすく加工すること」
となります。
身近なところだとGoogleなどの検索サイトがWEBサイトをクローラーで情報を収集して検索順位を決めますが
あれもスクレイピングのひとつと言えます。
スクレイピングの利点
例えば普段インターネットを利用してこのようなことはないですか?
・とてもいい情報が載っているのにUIが良くないサイト
・APIが提供されていないWEBサイト
・複数のサイトに情報が載っている
・複数のサイトの情報をまとめて検証したい
このようなときにスクレイピングはとても便利です。
実際にWEBサイトから情報を収集し、自分の好きなように加工、検証が行えます。
実際にやってみた
スクレイピングを実際にやってみようと思います。
対象は弊社のホームページ(https://aqua-rize.com)
コラム一覧の情報を取得します。
今回は便利なsimple_html_domというプラグインを使用させて頂いております。
このように書く事で簡単にタイトルと日付(投稿日)の一覧が取得出来ます。
さらにここからルールを見つけ、例えば
全てではありませんが「今週のコラムを担当する◯◯です。」で始まっています。
前の文言は若干違いがあるので使えませんが、「◯◯です。」は共通しているので
「◯◯です。」の前にある漢字2文字が投稿者の名前として抽出する事が可能です。
これは不安定なルールなので今後取得出来なくなる可能性があります。
このようにルールを見つけることで、情報を細かく集める事が出来ます。
まとめ
今回はスクレイピング(ウェブスクレイピング)についてご紹介しました。
個人的にはかなり好きな技術の一つで、使いやすく実用的なのではないかと思っています。
1点注意点として、スクレイピングを禁止しているサイトもあります。
理由としては、情報の不必要な漏洩を防ぐ、サーバー負荷の軽減のためなどありますが
このあたりは確認してから行うようにしましょう。
----------------------------------------------------------------------
株式会社AQUARIZE
〒531-0072
大阪市北区豊崎3-6-8 TOビル404
電話番号 : 06-7777-2927
税理士の業務に合ったシステム
----------------------------------------------------------------------