Rubyでスクレイピングをする場合、NokogiriやそのラッパーであるMechanizeを利用するのが一般的です。 ただ、単にタイトルをはじめとしたmetaタグを解析したい場合、MetaInspectorの利用をおすすめします。

この記事では、MetaInspectorの概要や使い方について解説します。

MetaInspectorとは

MetaInspectorはmetaタグに特化したパーサで、Mechanizeと同じくNokogiriをより使いやすく加工したライブラリです。

解析したいWebページのURLを渡すことで、そのページの以下のような情報を取得できます:

  • titleタグ
  • metaタグ
    • description、keywordsなど
  • ファビコン
  • OGP
    • og:imageなど

取得できる情報の詳細はREADMEをご確認ください。

インストール方法

MetaInspectorのインストール方法は、通常どおりGemfileに追加するだけです。

Gemfile:

gem 'metainspector'

使い方

使い方は、まずMetaInspectorクラスにURLを渡してインスタンスを生成し、各種データにアクセスするだけです。

いくつかの例とともに次に示します。

page = MetaInspector.new('http://post.simplie.jp')

page.title          #=> "Simplie Post"
page.description    #=> "小さなチームでサービスをつくるリモートワークのエンジニアのためのメディア"
page.images.favicon #=> "http://post.simplie.jp/assets/brand_48x48-01644a0dfb1c6324866e51b0c45f0e222e42c9cbf4f1fb39b3817e3e40ee8031.png"

おわりに

MetaInspectorを利用することで、いくつかのユースケースではNokogiriを直接操作するより楽にスクレイピングできると思います。 ぜひ試してみてください。