関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< Lucene 10周年記念に向けて | main | Java 7u1 / Java 6u29 の不具合改修の件 >>
言語判別機能の追加 (Solr 3.5)
次期Solrバージョン3.5には、言語判別機能が追加される予定である。言語判別機能は、インデックス作成時に呼び出され、あるフィールドが何語で書かれているかを自動判別する機能である。

https://issues.apache.org/jira/browse/SOLR-1979

これにより各ドキュメント/フィールド毎に最適なテキスト解析が行えるようになる。日本語以外のドキュメントを多く扱う企業、たとえばグローバルに事業展開を行っている企業の社内検索等に威力を発揮するだろう。

上記のSOLR-1979では言語判別機能としてApache Tikaの機能を使用している。これよりもサポートしている言語数と判別精度がよさそうな、サイボウズshuyoさん作の言語判別をとりこもうという提案がすでに追加でなされている。

language-detection
http://code.google.com/p/language-detection/

add alternative language detection impl
https://issues.apache.org/jira/browse/SOLR-2839

こちらもSolr 3.5におそらく入るのではないかと思われる。
| 関口宏司 | Solr | 12:26 | comments(1) | trackbacks(0) |
> こちらもSolr 3.5におそらく入るのではないかと思われる。

と書いた30分後にはコミットされた。
| 関口 | 2011/10/16 1:36 PM |









http://lucene.jugem.jp/trackback/455
+ Solrによるブログ内検索
+ PROFILE
    123
45678910
11121314151617
18192021222324
252627282930 
<< June 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS