いまやビジネスにおいて、インターネットを活用した情報収集は当たり前となっています。しかし、インターネット上には膨大な情報が存在しているため、そのなかから使える情報を見つけ出すのは大きな手間といえるでしょう。そこで注目されているのが「スクレイピング」です。今回は、インターネット上で有益な情報だけを迅速に収集するスクレイピングについて、概要や機能、利用する際のメリット、デメリットなどをお伝えします。
ビジネスでの情報収集を加速させるスクレイピング
スクレイピングとは、Webサイトを巡回して情報を取得し、その情報を加工して新たな情報を生成するためのプログラムのことです。
使用例としては、「競合他社のWebサイトから商品のスペックや価格などを収集して自社商品との比較表を作成する」、「特定の企業の株価を定期的に収集し、その推移をデータ化する」などが挙げられます。また、自社内で利用する情報収集以外にも、顧客に対して地図情報や物件情報を集約して表示させるなど、新たなWebサービスの構築にも大きな効果を発揮します。
スクレイピングとクローリング、APIの違い
Webサイトを巡回するというと、「クローリング」と同じものと考える人がいるかもしれません。しかし、クローリングとスクレイピングは以下のように異なります。
- クローリング
Webサイトを巡回すること - スクレイピング
クローリングしたうえで、必要な情報を抽出、加工を行うこと
スクレイピングがWebサイトから情報を収集する点においては、「API」も同様の機能を持っています。異なる点は、APIはWebサイト側が公式に提供しているサービスであることです。一方のスクレイピングは、情報の取得をWebサイト側から公式に認められていません。そのためスクレイピングでは、APIを提供していないWebサイトからも情報を取得できるといった特徴があります。
スクレイピングを利用するメリットとデメリット
企業としてスクレイピングを利用することにはどのようなメリット、デメリットあるのでしょうか。
スクレイピングを利用することで得られるメリット
主に次のメリットがあります。
- 手動で情報収集するよりも早く正確に大量の情報収集が可能
例えば、特定地域の家賃相場を調べる場合、複数の賃貸情報サイトから地域を選択し、1件ずつ家賃を抜き出していく必要があります。これをすべて手作業で行うとかなりの時間と手間を要しますが、スクレイピングを利用すれば、自動で必要な情報だけを迅速に収集するため、業務効率の大幅な向上が見込めます。 - APIでは取得できない情報も収集可能
APIはそのWebサイトが公式に提供しているサービスですが、必ずしもすべてのWebサイトで提供されているとはかぎりません。しかしスクレイピングは、APIを提供していないWebサイトからも情報収集が可能です。 - 新たなサービスの開発に利用できる
例えば、「地域名を入れるとここ数年の地価の上昇や下降をグラフにして表示する」、「車名を入れると使用年数ごとの中古価格が表示される」といったサービスを提供したい場合、スクレイピングを利用すれば大きなコストをかけずに迅速に構築できます。
スクレイピングを利用することによって生じるデメリット
- 急に情報収集ができなくなる場合があり、その際の対処に手間がかかる
スクレイピングはAPIのように公式に提供されているわけではないため、例えば収集先のWebサイトのHTML構造が変更されると収集できなくなる可能性があります。また、この場合プログラムやスクレイピング先の変更といった手間がかかります。 - 収集先のWebサイトからスクレイピングを拒否される場合がある
あまり頻繁にスクレイピングを行っていると、ログ情報をもとにアクセスを拒否されてしまう場合があります。 - 法律に触れてしまう場合がある
Webサイトに掲載されている情報はすべて公開情報のため、収集しても問題ないと思われるかもしれません。しかし、Webサイトによってはスクレイピングを禁止しているケースもあります。そのため利用規約を確認せずにスクレイピングを行ってしまうと、利用規約違反になり、訴訟問題に発展する可能性があります。安易なスクレイピングの利用は避けなければならないでしょう。
スクレイピングを利用する際の注意点
スクレイピングは使い方によって大きなメリットがありますが、デメリットも少なくありません。ビジネスでスクレイピングを利用するうえで注意すべき点を4つ紹介します。
- 収集先のWebサイトの利用規約を確認する
ビジネスとしてスクレイピングを行う際、情報収集先は、企業や自治体など公的なWebサイトであるケースが多いでしょう。そういったWebサイトでは、スクレイピングを禁止している場合も少なくありません。それにもかかわらず勝手にスクレイピングをしてしまうと、訴訟問題のリスクが発生します。スクレイピングを行う前には、必ず利用規約を確認するようにしましょう。 - APIを使える場合はAPIを利用する
最近は以前に比べ、天気、株価、地価、商品価格など多くの人が知りたい情報を、APIで提供しているWebサイトが増えています。そこで情報収集を行う際、APIを提供しているWebサイトであれば、スクレイピングを使わずAPIを利用しましょう。APIを利用すれば余計なトラブルを招く心配もありません。 - 情報収集先のWebサイトに余分な負荷をかけない
スクレイピングでは、目的によって異なりますが、情報収集先のWebサイトに変更があればその都度巡回し、最新の情報を収集します。そのため頻繁に変更があると巡回も頻繁になり、サイトに相当な負荷を与えてしまうことになります。これを繰り返しているとアクセス拒否やスクレイピング禁止にもつながるため、巡回頻度に注意しましょう。また、本当に収集しなくてはならない情報かどうかを検討することも大切でしょう。 - 著作権法にも十分に配慮する
スクレイピングによって収集した情報を別のサービスとして提供する場合、収集したものをそのまま提供すると著作権法に触れてしまう場合があります。そのため自社のサービスとして提供する場合は、収集したままの情報ではなく、必ずオリジナルの情報に加工したうえで提供しなければなりません。
収集先のWebサイトに迷惑をかけず効率的な情報収集を
スクレイピングにより迅速に大量の情報収集が可能ですが、Webサイトによっては利用規約で禁止されている場合もあります。そのため、自社の利益ばかりを考えるのではなく、収集先に対する配慮を忘れてはなりません。また、目的もなく大量に情報を収集するのも避けたほうがよいでしょう。業務を効率化し、自社に有益な情報を収集することがスクレイピングの目的であり、収集してから使いみちを考えるのは非効率です。
目的を明確にし、どういった情報を収集するかを決めたら、次はどうやって収集するかを考えなければいけません。おすすめは「VALUE KIT」の部品のひとつである「スクラップ」の利用。インターネット上に公開されているさまざまな情報から迅速、的確に必要なものを収集します。7割はできあがっているシステムのため、迅速な導入が可能です。選択肢のひとつとして、ぜひご検討ください。