検索エンジンスパム

提供: Yourpedia
移動: 案内検索

検索エンジンスパム(けんさくエンジンスパム)とは、GoogleYahoo!等の検索エンジンで自身のウェブサイトが検索結果の上位に表示させるように、何らかの仕掛けをすること、および施されたウェブページをいう。

なお、ランチョンミートのスパム(SPAM)ではなく、迷惑メールのスパム(spam)である。(大文字小文字に注意。)

概要

ウェブサイトに仕掛けをする事で、検索サイトでのウェブ検索経由で、特定のウェブサイトやウェブページへ多くのアクセスが見込めるが、これはネチケットに反する行為である。

検索エンジン側でも利用者が望む情報へのリンクを提供するために、関係無い内容のウェブページは除外する仕組みを開発して導入を進めてはいるものの、その仕組みを破る検索エンジンスパムを試みる者もおり、いたちごっこが続いている。詳細は#対策を参照。

出会い系サイト通信販売アフィリエイト関係などの業者のほか、個人のウェブサイトでも閲覧数を増やそうとして導入する者がいる。

文章による方法

検索の際に用いられるキーワードには特定の方向性があり、ある人気商品の商品名やタレントアイドル芸能人名前などは関連ニュースが報じられる度に検索頻度が上がる傾向が見られる。また日常生活で必要とされる各種情報に絡む言葉も検索の際に多く用いられる。

インターネットでは関心のある事象を、それこそ公式サイトや専門情報サイトから、根も葉もないレベルまでもが、検索サイトの機能を通じて見ることが可能であるが、これら検索キーワードを多く含む文章は、それだけ様々な人から閲覧される可能性が出てくる。特にトップページ(→ホームページ)やindex.htmlにそれらキーワードが出てくる場合などには、検索エンジン側で「その情報を専門に扱っているサイト」として集計ポイントを多く与えるなどの傾向が在り、このポイント数の多いサイトほど検索上位に表示する所も見られる。

検索エンジンスパム行為では、このような「よく検索されるであろうキーワード」を文章中にちりばめたり、意味も無く陳列させる事で、検索上位に食いこもうとする。極端な例では、著名人や有名人の名前を列記しただけのページをトップページに持ってきて、開いた途端に別のページへと自動的に誘導したりする(後述:1ページサイト)。そこまで行かなくとも、トップページに長々と文章が書き綴られているサイトでは、様々なキーワードが幾度も出てくる事になり、検索サイトがわのクローラには「該当キーワードの多く含まれる関係する情報が多そうなページ」に集計されやすくなる。(通常の文章中に、特定のキーワードが繰り返し出てくることは、かえって普通でもあるため、スパム行為になるかどうかの境界はあいまいである。)

なお商業サイトによっては、これら行為を検索エンジンマーケティング(Search Engine Marketing:SEM)と称しており、またこれら行為は特に違法でも無いために大々的に行われる傾向がある事すら否めない。しかし一般のインターネット利用者の側から見れば、特に何かを買うつもりも無いのに商用サイトへと誘導されれば、それなりに不快感を与えかねない。このため中にはこの手法を利用している事を悟られないように隠蔽したりするケースも見られる。

なおこの問題は検索サイト側のシステムを逆手に取った行為では在るものの、違法ではない上に積極的かつ無差別にメッセージを送信する迷惑メール行為程にはインターネット利用者の不快感を煽らない・もしくはその存在を知られていないため、同行為をインターネット・コミュニティ上で忌避される行為とは知らずに、もしくは「問題無い手法だ」と言い張って行う向きも見られ、一般の利用者と、同行為を行う側の軋轢を生んでいる。

以下の例は、あくまでも可能性があるということを書いているものであり、実際の検索結果を反映させたものではない。

文章によるもの

例えば、子供トイレットトレーニングについて知りたい親が「トイレ」と「トレーニング」をキーワードとして検索したとしよう。

一発で人間の子供に対するトイレットトレーニングに関連する記事に辿り付ければ幸いだが、ペットのトイレットトレーニングに関する記事を開いてしまったり、トレーニングの合間にトイレに行ったら混んでいて大変だったという誰かの日記を開いてしまう事も在り得る。またおねしょをしないようにしつけするためのトレーニングパンツの商品を広告するページを延々と見させられる事も起こりうる。

こうなってしまうと検索キーワードをもう少し工夫して「子供」と「トイレ」と「トレーニング」をキーワードにして検索するだろうが、そこでも子供のように大事に育てているペットのトイレットトレーニングが出てしまう可能性があり、気分を害することもあろう。こうなると後述するマイナスを使う方法で関連すると考えられるキーワードを除外する。

特に検索エンジンスパムでは、使うであろうキーワードを作為的に文章中に混入する事によって、意図的に自分のページに誘導を試みる。しかし検索エンジンスパム行為にあたるかどうかという自覚の有無や迷惑行為の範疇の認識も問題になるため、検索エンジンスパムの明確な線引きは無く、これは検索エンジンスパムではないと言われたらそれまでである。

ソースコードによる方法

文章によるものとは別に、一見何も無いページに見えるが、HTMLなどのソースコードに細工を施す事で、検索エンジンへの働き掛けを行うケースもある。

上記トイレットトレーニングを例とすると、背景と全く同じ色で検索キーワードを「隠しテキスト」として記述する(そのまま見えないが、文字を反転させたりソースコードを見れば分かる)方法や、非常に小さな画像に説明文を埋め込む・検索エンジンが目安とするmetaタグ内にキーワードを埋め込む方法などがある。

以下にその例の一部を挙げる。本来なら検索キーワードに入れるワードを含まず、関係ないものを意図的に検索させており、悪質である。

metaタグによるもの

metaタグは検索エンジンが参照し、その内容を評価するのに利用する。

<html>
<head>
<title>まるちーずのぺーじ</title>
<meta name="robots" content="(ここは検索エンジンで表示するので意図的に省いてある)">
<meta name="keywords" content="子,育,保育,トイレトレ,おねむ
,1歳,2歳,3歳,4歳,子育て,(などの文字列)">
</head>
 |本文
</html>

また上に挙げた文章によるものにも関連するが、検索エンジンに働き掛けやすい文章を、人には読ませないように隠す(検索エンジンスパムによる不快感を与えないようにする)行為も見られる。

隠しテキストによるもの

文字と背景を同じ色にする。

<html>
<head>
<title> はむのぺーじ</title>
</head>
<body bgcolor="white">
<font color="white">
子,育,保育,トイレ,おねむ
,1歳,2歳,3歳,4歳,(など大量の文字列)"
</font>(ここまでが検索エンジン用キーワード)
<font color="blue">
|本文
</html>

文字を極端に小さくする。

<html>
<head>
<title>はむのぺーじ</title>
</head>
<body bgcolor="white">
<div style="font-size:1px">
子,育,保育,トイレ,おねむ
,1歳,2歳,3歳,4歳,(など大量の文字列)
</div>(ここまでが検索エンジン用キーワード)
<font size="3">
|本文
</html>

この他にも、画像の説明中に検索キーワードを意識した文章を隠す方法もある。

<html>
<head>
<title>はむのぺーじ</title>
</head>
<body bgcolor="white">
<img src="xxxxxx.jpg" height=1 width=1 border="0" 
alt=" ハムスター,はむ,ペット,子,育,保育,トイレ
,1歳,2歳,3歳,4歳,(など大量の文字列)">
<font color="blue">
|本文
</html>

他にもスタイルシートを使用した方法などがある。

リンクページの大量生産

ある特定のキーワードを含むページからリンクされているサイトは、検索サイトの集計ポイント上で「参考になる情報があるために、様々なページからリンクされているサイト」と認識されやすい。これを逆手にとって、無料のホームページスペースを大量に取得して、自サイトへとリンクを貼る者がいる。

これは本格的なスパマー(迷惑メール送信者:spamer)に見られた手口(SEOスパム)であるが、これらでは自動化された無料ホームページスペースのアカウント取得スクリプトを用いて複数ホームページを作成、これらに片っ端から同じページを1枚だけアップロードして、自サイトへと集中的にリンクを貼らせる。このような方法では、かつて防止策が無かった頃には、数百から数千と言った単位でこの1ページサイトが乱立していたという。

現在、このような1ページサイトはスパマーの迷惑行為防止の点で「自動化できないように、ホームページスペース取得手順に画像に書かれた文字や記号を読ませて承認する」という方法を導入する一方、無差別に作られたと考えられるようなサイトを探し出して・または利用者からの報告を受けてはアカウントごと削除する活動が続けられている。また、検索エンジン側でもこのようなサイトをドメインごと検索で引っかからないようにするといった対策も行われている。

対策

検索エンジン運営者

このようなページはグーグル八分とされ、特定のウェブサイトが検索用のインデックスから完全に削除されてしまい、GoogleやYahoo!などにおいて一切検索結果から出なくなる。しかし、文章による方法ではどれが検索エンジンスパムなのかの区別が付きにくく、付いたとしてもGoogleやYahoo!などにおいても全てを把握するのは困難であり完全な対策は出来ていない。

しかし中には違法性のある商品・サービスを提供するサイトなどがこの手法を導入することで検索サイトに働き掛けるケースもあることから、先に挙げたグーグル八分のみならず、他の検索サイトでも定期的に問題のあるサイトのキャッシュ(検索サイト側が持つ検索情報)を検索して削除する活動が行われている。

過去にはGoogleで「(東京都)○×区の歴史」と検索すると23区の何処の区名で検索してもポルノサイトが上位に来る事態が発生し、2004年5月12日警視庁より連絡を受けたGoogleがこれを強制的に排除している[1]

また、MSNでは2004年11月8日爆弾の製造方法や自殺系サイトのキャッシュを携帯電話向けのサービスから除外するなど、従来では検索品質(情報の精度)以外には責任を持たなかったロボット検索エンジンでも、その検索結果の内容に責任を持ってあたる傾向が生まれている。

検索エンジン利用者

悪意のある対策として、「荒らし行為」をそのサイトの掲示板に行う事や、嫌がらせメールを送信し、サイトを閉鎖に陥れる行為がある。しかしそのような行為は、利用者側の品位を貶める行為でもあるため、実行は勧められない。また、サイト閉鎖後に、大量のバックリンクが付いた閉鎖されたサイトのドメインを悪意ある利用者が取得した場合、悪意のある利用も可能であるため、問題が多いと思われる。


なお、マルチポストによって他の掲示板上に貼りまくられたリンクが、検索エンジン側で前出の1ページサイトと同様にカウントされてしまうため、逆に事態の悪化を招く懸念もある。

悪意の無い対策としては、検索に際して検索キーワードを工夫する(除外キーワードの利用など)事が上げられよう。例えばGoogleやYahoo!などの主要検索サイトでは“-”記号(ハイフン)に続けてキーワードを入力すると、そのキーワードを含むページを除外して検索してくれる。年齢や住所などアラビア数字を含むキーワードの場合はキーワードが分解(例:「20歳」→「20」と「歳」に分解)してしまうので、半角“""”記号の中にキーワードを入れることによってフレーズとして分解を阻止させることも出来る。

他の検索サイトでも、「検索オプション」などから複数のキーワード入力欄に、それぞれ「含まれる」・「含まれない」・「双方が含まれる」等の細かい指定を行う事が可能となっており、そのような仕組みを利用することが奨められる。


関連項目