クローラーはロボットやスパイダー等とも呼ばれ、WEBサイトを自動的に検出したり、その内容をスキャンするプログラムのことです。例えばGoogleのメインクローラーとして有名なのが「Googlebot」です。Googleの検索データベースを作成するために、世界中のありとあらゆるWEBページの情報を回収し、結果をデータベースに蓄積しています。
クローラーがサイトを探す手段や、クロール対象とするファイルの種類は様々です。またテキストファイルやPDF、スプレッドシートやワードファイル等も回収するものが多いため、場合によってはセキュリティ上での大きなミスに繋がりかねません。
またクローラーに回収されたくないコンテンツを指定する手段としては、HTMLファイル内のヘッダーに拒否することを明記するためのMETAタグや、またWEBサーバの公開ディレクトリ最上位に、ロボットが来た時の挙動を記述したファイルを配置することも可能です。