関口宏司のLuceneブログ

OSS検索ライブラリのLuceneおよびそのサブプロジェクト(Solr/Tika/Mahoutなど)について
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | | - | - |
用語集 A--Z
Inverted Index

=>転置索引

precision

=>精度または適合率

recall

=>再現率

relevance ratio

=>適合率
| 関口宏司 | 用語集 | 13:09 | comments(0) | trackbacks(0) |
用語集 ら--ん
用語集 ら--ん
| 関口宏司 | 用語集 | 11:38 | comments(0) | trackbacks(0) |
用語集 ま--よ
用語集 ま--よ
| 関口宏司 | 用語集 | 11:37 | comments(0) | trackbacks(0) |
用語集 な--ほ
用語集 な--ほ
| 関口宏司 | 用語集 | 11:37 | comments(0) | trackbacks(0) |
用語集 さ--と
再現率

検索システムの評価尺度のひとつで、検索結果中の検索漏れの少なさを表す。

シソーラス

意味が同じ単語同士をグループにまとめた辞書。

順次検索方式

検索対象ドキュメントの前処理を行わず、UNIXのgrepコマンドのようにテキストの先頭から順次文字列を検索し、検索対象テキストと一致する部分文字列を検出する全文検索方式の一種。検索のたびに毎回ドキュメントのすべてを調べるので、大量ドキュメントに対して多数のユーザから検索リクエストがある場合はかなり効率が悪い。

ステミング

単語の語尾処理を行い、基本の語幹に単語を変換する正規化の一種。たとえば、"went"、"gone"、"going"などを"go"に変換する。LuceneではAnalyzerが担当する。

ストップワード

英語でいえば"is"、"in"、"on"、"not"、"a"、"the"のような機能語。これらの単語はどのドキュメントにも共通して頻繁に使われるために特定のドキュメントを識別する力が弱く、インデックスに含めない。「ストップワード」を取り除いた単語を使ってインデックスを作成することで、インデックスのサイズを小さく抑え効率的に検索することが可能となる。反面、「ストップワード」はインデックスに登録されないために、「ストップワード」を検索語句に使用しても、検索の対象とならなくなってしまう。

精度

検索システムの評価尺度である「適合率」の別称。

全文検索

検索対象ドキュメントの「全文」のテキストを検索対象にする検索方法や検索システムのこと。これは全文検索でない「非全文型検索」を考えるとわかりやすいかもしれない。「非全文型検索」の典型的な例は、書籍の索引(インデックス)を使って検索したいキーワードがどのページに載っているかを探す行為に似ている。書籍の索引に掲載されるキーワードは人手でキーワード抽出をして重要と思われるページをピックアップして整理しているので、キーワードに対して主観が入りながらも、高品質な索引が提供されていて、いわゆる「雑音」が少ない(キーワードに対して何千件もヒットする、ということがない)。それに対し「全文検索」は、機械的にテキストの全文を検索対象にする。そのため、大量のドキュメントを検索処理するのに適しているが、キーワードの抽出は人手による場合と比べて、品質的に問題がある場合もある。全文検索には、あらかじめ検索のための索引を作る転置索引方式と、索引を使わない順次検索方式がある。

適合率

検索システムの評価尺度のひとつで、検索結果中のノイズの少なさを表す。

転置索引

検索対象ドキュメントのテキストからキーワードを抽出し、キーワードから当該ドキュメントを引けるように整理した表。

転置索引方式

転置索引を用いた全文検索方式の一種。検索のために索引表を用いるので、索引の更新頻度によっては実際のドキュメントの内容と検索結果に差異が生じる可能性があるが、大規模検索(大量ドキュメント+多数のユーザ)に向いている。

トークン

テキスト文字列から分割された単語。LuceneではAnalyzerが単語分割を担当する。
| 関口宏司 | 用語集 | 11:35 | comments(0) | trackbacks(0) |
用語集 あ--こ
概念検索

情報検索の一種であるが、通常の情報検索とは異なり、検索対象ドキュメントの主旨と検索質問の主旨の近さを調べて、検索する方法。主旨(概念)の近さを調べるために、概念ベクトルというものを使う。Luceneの検索では、検索質問文に現れる単語が検索対象のドキュメントに直接含まれていなければならないため、概念検索はサポートしていない。
| 関口宏司 | 用語集 | 11:29 | comments(0) | trackbacks(0) |
+ Solrによるブログ内検索
+ PROFILE
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< March 2024 >>
+ LINKS
検索エンジン製品 - 比較のポイント
商用検索エンジンを購入した企業担当者は読まないでください。ショックを受けますから・・・
>>製品比較 10のポイント
+ Lucene&Solrデモ
+ ThinkIT記事
+ RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
+ RECOMMEND
Lucene in Action
Lucene in Action (JUGEMレビュー »)
Erik Hatcher,Otis Gospodnetic,Mike McCandless
FastVectorHighlighterについて解説記事を寄稿しました。
+ RECOMMEND
+ SELECTED ENTRIES
+ RECENT COMMENTS
+ RECENT TRACKBACK
+ CATEGORIES
+ ARCHIVES
+ MOBILE
qrcode
+ SPONSORED LINKS