2017.12.15 Friday
スポンサーサイト
一定期間更新がないため広告を表示しています
| スポンサードリンク | - | | - | - |
関口宏司のLuceneブログOSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
2008.06.16 Monday
Web Spam Detection for Heritrix - Heritrix用Webスパム発見器
Google Summer of Code 2008でWebスパムページをHeritrixで見つけるプラグインを開発している人がいる:
http://webteam.archive.org/confluence/display/Heritrix/Web+Spam+Detection+for+Heritrix ざっと読んだところ、Webスパムを見つける方法として特に「JavaScriptリダイレクション」と「クローキングスパム」の構造的特徴に注目してそれがスパムの要件を満たしているかどうかを発見するもののようである。 たとえば「JavaScriptリダイレクション」の方法ではWebページに2度訪れたとき(ただし1度目はJavaScriptをON、2度目はOFFにする)、次のアルゴリズムで「JavaScriptリダイレクション」かどうかが判定できる:
ここでOrgURLはオリジナルのURL、DstURL(E)はJavaScriptをONにしたときのデスティネーションURL、DstURL(D)はJavaScriptをOFFにしたときのデスティネーションURLである(実際には2度訪れる必要はなく、JavaScriptを評価すれば見極められる)。 そして「JavaScriptリダイレクション」のときはOrgURL=>DstURL(E)においてたとえば次のような単純なルールを適用してスパムでないページを判定できる:
これ以外のリダイレクションをJavaScriptリダイレクションスパムであるとみなすことができる。もっともこれだけでは偽陽性(JavaScriptリダイレクションスパムでないサイトもスパムであると判定されてしまうこと)が存在するので、「手動」で判定できるクチを用意するようである。 日本語のWebページでも問題なく使えそうなプログラムなので、興味のある人は使ってみてはどうだろう(使ったらぜひ感想を聞かせてください)。 コメント
コメントする
この記事のトラックバックURL
トラックバック機能は終了しました。
トラックバック
|
+ Solrによるブログ内検索
+ PROFILE
+ LINKS
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
+ RECOMMEND
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
+ SPONSORED LINKS
|
(C) 2024 ブログ JUGEM Some Rights Reserved.
|
PAGE TOP |