図書館情報技術論10
ロボット型サーチエンジンのクローラがWebページを収集する方法と、収集に関する問題点について説明してください。
はじめにWebページの収集方法について説明する。
サーチエンジンを構成するのは、①検索を担当するコンピュータ(狭義ではこれをサーチエンジンという場合もある)、②クローラのプログラムを実行するコンピュータ、③収集したWebページを記憶するデータ庫、である。
クローラのプログラムが実行されると、検索を担当するコンピュータがHTMLを活用して、まずはじめに、Yahoo!のような著名でリンクの多い優良なWebページにアクセスしてそのページをコピーしてデータ庫に蓄積する。次にコピーしたWebページからリンクが張られているURLにアクセスしてさらにWebページをコピーし、再度データ庫に蓄積していく。この作業を縦横に広がりながら何度も繰り返し巡回することによって、Webページを収集する。
次に収集に関する問題点について説明する。
(a)Webページの誕生・更新・削除に追いつけない
Webページを常に最新の状態でデータ庫に蓄積しておくことは困難である。その対処法として、クローラはWebを再収集する時間間隔をWebの種類によって、更新頻度の高いウェブページについては短く、更新頻度の低いウェブページについては長く、という調整をしているが、完全には対処しきれない。
(b)リンクされていないWebページにたどり着けない
クローラはリンクを巡回して芋づる式にWebページを巡回するため、外部からまったくリンクが張られていないWebページ(島ページ群)にはたどり着くことができない。
(c)深層Webにたどり着けない
URLの入力やリンクをたどることでアクセスできる表層Webとは別に、深層Webというものが存在する。これは、アクセスした人の入力に応じて動的に作成されるものであるため、たどり着くことができない。
(a)~(c)の問題点が示すように、すべてのWebページをもれなく収集することは不可能である。また、各サーチエンジンのクローラのプログラムによっても収集されるページは異なる。
よって、「自動収集」は完全なものではないということを認識しておく必要がある。