関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
QueryParserが全角スペースを判断(2.9)
Lucene 2.9でQueryParserが全角スペースをスペースとして判断するようになった:

https://issues.apache.org/jira/browse/LUCENE-1528

これまでは全角スペースがスペースとして判断されなかったため、検索窓に「検索△ランキング」(△は全角スペース)と入力してそれをそのままQueryParserに渡すと、QueryParserはこれを1単語として判断してAnalyzerに渡してしまう。その後どうなるかは使用するAnalyzerにより異なるが、たとえばWhitespaceAnalyzerであれば(これはCharacter.isWhitespace()で判断しているので)全角スペースでトークンの切れ目と判断し、結果的に"検索 ランキング"というフレーズ検索になってしまっていた。

Lucene 2.9からは「検索△ランキング」の全角スペースはQueryParserが判断する単語の切れ目になるので、「検索」と「ランキング」のTermQueryをANDまたはOR(どちらになるかはQueryParserの設定で決定する)で接続したBooleanQueryが生成されるようになる。

日本ではIMEなどの設定により、漢字入力中のスペース入力が人によって全角スペースであったり半角スペースであったり統一されていないため、「検索△ランキング」の全角スペースをQueryParserに渡す前に半角スペースに変換する必要があったが、このステップが今後は省略できるようになる。
| 関口宏司 | Luceneクラス解説 | 11:56 | comments(0) | trackbacks(0) |
(メモ)Fast Similarity Search関連の資料
- Fast Similarity Search in Large Dictionaries. http://fastss.csg.uzh.ch/
- Paper: Fast Similarity Search in Large Dictionaries. http://fastss.csg.uzh.ch/ifi-2007.02.pdf
- FastSimilarSearch.java http://fastss.csg.uzh.ch/FastSimilarSearch.java
- Paper: Fast Similarity Search in Peer-to-Peer Networks. http://www.globis.ethz.ch/script/publication/download?docid=506

https://issues.apache.org/jira/browse/LUCENE-1513

P.S. 新年あけましておめでとうございます。本年もどうぞよろしくお願いいたします。
| 関口宏司 | その他(分類不能) | 10:03 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
    123
45678910
11121314151617
18192021222324
25262728293031
<< January 2009 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS