クローラー

更新日：2014年3月16日

クローラーはロボットやスパイダー等とも呼ばれ、WEBサイトを自動的に検出したり、その内容をスキャンするプログラムのことです。例えばGoogleのメインクローラーとして有名なのが「Googlebot」です。Googleの検索データベースを作成するために、世界中のありとあらゆるWEBページの情報を回収し、結果をデータベースに蓄積しています。

クローラーがサイトを探す手段や、クロール対象とするファイルの種類は様々です。またテキストファイルやPDF、スプレッドシートやワードファイル等も回収するものが多いため、場合によってはセキュリティ上での大きなミスに繋がりかねません。

またクローラーに回収されたくないコンテンツを指定する手段としては、HTMLファイル内のヘッダーに拒否することを明記するためのMETAタグや、またWEBサーバの公開ディレクトリ最上位に、ロボットが来た時の挙動を記述したファイルを配置することも可能です。

この記事を書いた人

クローラー｜WEBマーケティングコンサルティング・丸投げ・実務代行のユナイテッドリバーズ

クローラー

この記事を書いた人

toukou

最近書いた記事