関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< 書籍「Apache Solr入門」 | main | solrbook.zip の再アップロード >>
ASCIIFoldingFilterの存在意義
「ASCIIFoldingFilterの存在意義」というと大げさだが、Lucene 2.9からCharFilterが登場したのにTokenFilterレベルで行うASCIIFoldingFilterは必要なの?というメール投稿:

http://old.nabble.com/Why-ASCIIFoldingFilter-is-not-a-CharFilter-td27680105.html

その回答としては、「インデックス前には最終的にターム中のdiacritics(ウムラウトみたいな付加記号)を削除したいけどいくつかのStemmer(英語でいうところの複数形を単数形にしたりingがつく単語を原語に直したり等、機械的に単語を変換する機能)はdiacriticsを参照している」とのこと。なるほど。
| 関口宏司 | Luceneクラス解説 | 12:05 | comments(0) | trackbacks(0) |









http://lucene.jugem.jp/trackback/375
+ Solrによるブログ内検索
+ PROFILE
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS