関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
(メモ)Crawler Commons Project
http://code.google.com/p/crawler-commons/

バックグラウンド
http://wiki.apache.org/nutch/ApacheConUs2009MeetUp
| 関口宏司 | クローラー | ロボット | スパイダー | 06:49 | comments(0) | trackbacks(0) |
Web Spam Detection for Heritrix - Heritrix用Webスパム発見器
Google Summer of Code 2008でWebスパムページをHeritrixで見つけるプラグインを開発している人がいる:

http://webteam.archive.org/confluence/display/Heritrix/Web+Spam+Detection+for+Heritrix

ざっと読んだところ、Webスパムを見つける方法として特に「JavaScriptリダイレクション」と「クローキングスパム」の構造的特徴に注目してそれがスパムの要件を満たしているかどうかを発見するもののようである。

たとえば「JavaScriptリダイレクション」の方法ではWebページに2度訪れたとき(ただし1度目はJavaScriptをON、2度目はOFFにする)、次のアルゴリズムで「JavaScriptリダイレクション」かどうかが判定できる:



// 疑似コード
if DstURL(E) = OrgURL, then
// リダイレクションではない
else if DstURL(E) != DstURL(D) then
// JavaScriptリダイレクションである
else
// JavaScriptリダイレクションではない



ここでOrgURLはオリジナルのURL、DstURL(E)はJavaScriptをONにしたときのデスティネーションURL、DstURL(D)はJavaScriptをOFFにしたときのデスティネーションURLである(実際には2度訪れる必要はなく、JavaScriptを評価すれば見極められる)。

そして「JavaScriptリダイレクション」のときはOrgURL=>DstURL(E)においてたとえば次のような単純なルールを適用してスパムでないページを判定できる:

  • www2007.com => www.2007.com/;
  • www2007.com => www.2007.com/{index, default, ...­}.{htm, html, asp, aspx, php, ...};
  • 同じホスト内へのリダイレクション


これ以外のリダイレクションをJavaScriptリダイレクションスパムであるとみなすことができる。もっともこれだけでは偽陽性(JavaScriptリダイレクションスパムでないサイトもスパムであると判定されてしまうこと)が存在するので、「手動」で判定できるクチを用意するようである。

日本語のWebページでも問題なく使えそうなプログラムなので、興味のある人は使ってみてはどうだろう(使ったらぜひ感想を聞かせてください)。

| 関口宏司 | クローラー | ロボット | スパイダー | 00:19 | comments(0) | trackbacks(0) |
(メモ)NutchとHeritrix
WebクローラーとしてのNutchとHeritrixの比較

http://tech.groups.yahoo.com/group/archive-crawler/message/5099
| 関口宏司 | クローラー | ロボット | スパイダー | 15:04 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< March 2024 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS