こんにちは検索を担当しております須田です。
ライブドアでは先日ブログ検索のリプレースを致しました。
web上での反応を見ると、フィルタリングが強すぎてスパムでないブログも排除しているのではないか。
というご意見も見受けられました。
個人的にですがスパムブログと一緒に優良なブログまでフィルタリングしてしまったのでは、スパム業者の勝利ではないかと考えています。
今回のブログスパム対策では、「フォールス・ネガティブ」を極力排除し、「フォールス・ポジティブ」を優先的に無くすよう施策を繰り返しました。
「フォールス・ネガティブ」,「フォールス・ポジティブ」についてはこちらが参考になりますので一度ご観覧下さい。
http://www.atmarkit.co.jp/fsecurity/column/kawaguchi/005.html(@IT様より)
さて、では一体どのようなサイトがスパムとして認識されてしまうのでしょうか。
blogでのサイトプロモーションを検討なさっているディレクターも気になるかと思われますので、その一部を公開したいと思います。

【01】他ブログの転載のみのサイト
「転載」と「引用」は全く違うもので、スパムブログは転載サイト化しているケースが非常に多いです。
法的なお話はここでは詳しく書きませんが、転載は法的に見てもグレーゾーンですし、ユーザーから見た場合にも全く同じ意見、情報を何度も見る意味がありませんので転載サイトにはフィルタがかかります。

【02】引用のみのブログ
こちらもスパムブログには非常に多いケースです
他サイト記事の一部を引用し、それを複数にまたがり引用するといった手法のブログが横行しておりますがこちらも今回の対策で大分弾くようにしております。

【03】唯のリンク集
ページ自体が特に情報を配信するものではなく、全て他サイトへのリンク集と化しているブログ

【04】IDを幾つも取得し、意味の無い情報を乱発するブログ
別デザインでワードの順番を微妙に変え全く違うブログに見せかけ、機械的に記事を投稿するブログ

このほか今回のブログスパム対策ではスパムの種類によって数十種類のスパムフィルタを導入しており、現在Naive Bayesの解法を用いた対策も検討中です。

結論を申しますと普通にブログの記事を書いていらっしゃる方には何の影響もありません。

冒頭にてweb上での反応を一部記載させて頂きましたが、この反応への回答をさせて頂きますと、
フィルタリングが強いと感じるほどに現在のスパムブログが流行しており、普通にブログを書いている方には極力悪い影響は出ないよう対策をしております。

今回のブログスパム対策は基本的なスパムを排除する為の施策どまりで、今後も現在取りこぼしているスパムブログに対するフィルターの追加などをおこない徐々に対策を強化してまいります。
テクノロジーの進化と共にブログスパムの手法も多様化していくものかと予想しておりますが、その都度ライブドアブログも進化をしていきますのでどうか生暖かく見守ってってください。