関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
<< lucene-gosen | main | Senの入手方法 >>
lucene-gosen + Solr 3.1
先日簡単に紹介したlucene-gosenを、Solr 3.1で使う手順を説明しよう。

1.lucene-gosenのダウンロードしてビルド

$ mkdir ~/work
$ cd ~/work
$ svn checkout http://lucene-gosen.googlecode.com/svn/trunk/ lucene-gosen-read-only

$ cd lucene-gosen-readonly
$ ant


2.Solr 3.1のダウンロードとlucene-gosenのJARの設定

$ mkdir ~/work2
$ cd ~/work2
$ wget http://ftp.riken.jp/net/apache//lucene/solr/3.1.0/apache-solr-3.1.0.tgz
$ tar xvzf apache-solr-3.1.0.tgz
$ cd apache-solr-3.1.0/example
$ mkdir solr/lib
$ cp ~/work/lucene-gosen-readonly/lucene-gosen-1.0beta.jar solr/lib


3.schema.xmlの設定

<fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.JapaneseTokenizerFactory"/>
  </analyzer>
</fieldType>


4.Solrを起動

$ java -jar start.jar


そして、text_jaで解析すると、次のようになる。 JapaneseTokenizer lucene-gosen
| 関口宏司 | 形態素解析 | 11:36 | comments(13) | trackbacks(0) |
Solrに興味を持ち,調べていてこちらの記事にたどり着きました.
早速1.00-ipadicを使ってみたのですが,WordDelimiterFilterで"newSearcher"のような単語を分割させると,basicForm情報がnullとなり,JapaneseBasicFormFilterがNullPointerExceptionで落ちてしまいます.

basicForm情報がnullのときは,単語情報のフィルタ処理をしないようにJapaneseBasicFormFilterFactoryのソースを改変してごまかしたのですが,こういったフィルタ処理には適用順序のような規則があるのでしょうか?

※こちらで議論する内容ではないかもしれませんが(^^;)
| Solrビギナー | 2011/05/07 10:32 PM |
うーん、バグかもしれないですね。あとで見てみます。
| 関口 | 2011/05/07 10:53 PM |
試してないですが、バグ報告してもらってもいいですか?

http://code.google.com/p/lucene-gosen/issues/list

よろしくお願いします。
| 関口 | 2011/05/07 11:01 PM |
英語で正しく伝える自信がなかったので日本語で書いてしまいました.

あと,バグ報告画面の使い方が分からず,優先度Mediumになってしまいました.

色々と申し訳ありません.

| Solrビギナー | 2011/05/08 12:07 AM |
はじめまして。
ApacheSolr入門を購入し、いろいろ勉強しております。
そこで質問なのですが、gosenで解析した読みがなのデータ(readings)をインデックスに登録し、検索対象にすることは可能なのでしょうか?
ご教授いただけましたら幸いです。
| tabi | 2011/11/16 4:46 PM |
できます。プログラムを書けば・・・ですが。
| 関口 | 2011/11/16 9:02 PM |
ありがとうございます。

schemaの設定ではできないということですね。

で、どのように書けば良いのでしょうか?
lucene-gosen + Solr 3.4.0を使用しております。
調べますので使用するライブラリなどのヒントだけでも教えて頂けないでしょうか。

よろしくお願いいたします。

| tabi | 2011/11/17 6:16 PM |
Apache Lucene入門を図書館から借りてきました。

どこから手を付けて良いのかわからなかったのですが、
この本にそれらしき方法が載っていましたのでとりあえずよく読んでみます!

ありがとうございました!
| tabi | 2011/11/18 7:04 PM |
はじめまして。solrの初心者です。
solr1.4を使っているのですが、色々試行錯誤しても分からない点がありまして、何かヒントをいただければと思い、投稿させていただきました。
1.ハイライト機能についてですが、solrクエリ発行時に、fragsizeを設定しても、ヒットした結果がその指定したサイズ(強調タグを外したサイズ)でsolrから返却されないのは、なぜでしょうか?想定していたのは、ヒットした際、強調タグを外したサイズが、fragsizeで設定した文字数となると思ってました。
2.上記1と関係しますが、1000文字の検索対照があったとして、fragsizeで300と設定した際、フラグメンタで分割された最後の文字列要素(おそらく100文字?)の中に、ヒットする文字が多かった場合、やはり、solrから返却される文字数は100文字近辺ということでしょうか?
3.また、ハイライトする際、フラグメンタがfragsizeで検索対象を分割すると思いますが、もし、その分割点で、ヒット対象の文字があったとすると、検索はされるのでしょうか?
初心者的質問で恐縮ですが、どうかご教授ください。
| テイラー | 2012/10/01 11:49 AM |
こんにちは。

> 1.ハイライト機能についてですが、solrクエリ発行時に、fragsizeを設定しても、ヒットした結果がその指定したサイズ(強調タグを外したサイズ)でsolrから返却されないのは、なぜでしょうか?想定していたのは、ヒットした際、強調タグを外したサイズが、fragsizeで設定した文字数となると思ってました。

スニペットを作る際の単位が単語なのでぴったり指定した文字数にはならないです。

> 2.上記1と関係しますが、1000文字の検索対照があったとして、fragsizeで300と設定した際、フラグメンタで分割された最後の文字列要素(おそらく100文字?)の中に、ヒットする文字が多かった場合、やはり、solrから返却される文字数は100文字近辺ということでしょうか?

はい。

> 3.また、ハイライトする際、フラグメンタがfragsizeで検索対象を分割すると思いますが、もし、その分割点で、ヒット対象の文字があったとすると、検索はされるのでしょうか?

ご質問の意味がわかりませんが、検索語を一番含んでいたり、希少価値の高い検索語の場合は必ずしも個数が多くなくてもその希少価値の高い単語が含まれるようにスニペットを作成しています。
| 関口 | 2012/10/01 7:21 PM |
初めまして。
現在Solrの勉強中です。

2点質問させてください。


JapaneseTokenizerFactoryのuserDictionary属性にてユーザー辞書に単語登録を行った場合、
既に登録されているインデックスに対する変更は行われないのでしょうか?
またできない場合はインデックス削除を行い再登録という形になるのでしょうか?


Solr4.0の管理画面ですが、IEで起動した場合エラーが発生し正常に管理画面を見ることができません。
他サイトにて「推奨されるブラウザーはFirefox、InternetExplorerでは手順が異なる場合があります。」と
書いてあったのですが、IEでの表示は可能なのでしょうか?


お手数お掛けいたしますがご教授ください。
| YN | 2012/12/13 8:25 PM |
>
>JapaneseTokenizerFactoryのuserDictionary属性にてユーザー辞書に単語登録を行った場合、
>既に登録されているインデックスに対する変更は行われないのでしょうか?
>またできない場合はインデックス削除を行い再登録という形になるのでしょうか?

インデックスをし直さないとダメです。

>
>Solr4.0の管理画面ですが、IEで起動した場合エラーが発生し正常に管理画面を見ることができません。
>他サイトにて「推奨されるブラウザーはFirefox、InternetExplorerでは手順が異なる場合があります。」と
>書いてあったのですが、IEでの表示は可能なのでしょうか?

4.0はIEはだめですね。弊社のSolrトレーニングでも持ち込みPCにはIE以外を用意するよう、コメントしています:

http://www.rondhuit.com/training.html
| 関口 | 2012/12/13 9:01 PM |
こんばんは
先日は回答ありがとうございました。

再度質問させてください。

辞書変更時のインデックス再作成ですが、取り込みデータ(XMLファイルなど)からの再作成になるのでしょうか?
もしくは既に登録しているインデックスを元に再作成は可能でしょうか?
(DataImportHandlerで可能なのでしょうか? Solrスキーマにマッピングしてみたのですがエラーになってしまいました・・・。)


お手数お掛けいたしますがご教授ください。
| YN | 2012/12/21 1:31 AM |









http://lucene.jugem.jp/trackback/436
+ Solrによるブログ内検索
+ PROFILE
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< August 2017 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS