WebページのBody内データ(HTML、テキスト、画像、JavaScript)
Header情報(主にmetaタグにcontent要素にnoindexが含まれているか否か)
HTTP Headerの情報(ステータスコードおよびredirect_status, redirect_url, mimeType情報)
JavaScriptおよびCSSファイル(Webページをレンダリングする際に必要なJSおよびCSSファイル)
上記データを取得後、レンダリングの上Webページを描画し、スクリーンキャプチャ画像として保存しております。
独自のURL選定アルゴリズムが「アクセス先Webサイトの負荷回避」のみを考慮しクロールの順番を決定しております。
特定のWebサイトやページに集中的かつ作為的にアクセスすることは一切行っておりません。
クローラーは常にCincrawのUserAgentを出力しWebページにアクセスします。
Webページに表示されている広告(バナー広告やネイティブ広告、アフィリエイト広告など)のリンクをクローラーが巡回することはありません。
又、Canonicalで指定されているURLの規則性から正規ページのURLを抽出し、それら正規URLのみを極力巡回対象とするようクロール先URLリストの精査とチェックを定期的に行っております。
Cookieを保存した状態で他のWebページにアクセスすることはありません。
(すべてのCookieは削除しています)
巡回先Webページのアクセス解析データに当クローラーのアクセスデータを混在させる事を防ぐべく、 GoogleタグマネージャーやGoogleAnalyticsなど、一般的な解析タグの読込&リクエストを排除しております。