如何理解SQL Server中的Ranking
2008-02-20 09:52:56 来源:WEB开发网◆Full-Text Catalog
全文检索目录。为查询建立的中间索引的集合体,该目录对于SQL Server的管理员来说,要么被建立或者没有建立。
◆Word, Token or item 关键词
全文搜索引擎搜索的基本单元, Documents文本源被分词成了Word或Token,不同语言其分词结果是不相同的。
◆Occurrence
在文本属性(document property)中关键词Word的偏移量字长是由分词器所决定的。如在第一分词是在发生1处 ,接下来的在2处,依此类推。为了避免在短语和邻近的查询出现假负数结果,在最终的句点和段落尾巴归宿的引入发生较大的差异。
◆Catalog Key
包含关键字的Word和property的组合。
◆HitCount
在一行中有多少次关键字命中的次数。
◆IndexedRowCount
索引行的总数。这种计数是基于中间索引基础上计算出来的。这个数字在精确度上可以存在着很大的不同。
◆KeyRowCount
全文目录中包含关键词的总行数。
◆MaxOccurrence
某一行property的最大匹配值,它可能存放在一个全文目录中。
◆MaxQueryRank
MSFTESQL能够返回最大的Rank值为1000。
Rank排名计算问题
计算排名(Rank)的过程,取决于多项因素。不同的语言分词记号完全不同。例如,字符串“dog-house”可以被分成“dog”、“house” ,而另一种分词方法又可能把它分成“dog-house” 。这意味着,匹配和排序会基于语言的种类而有所不同,因为其中不仅有不同的关键字,还影响到文档Document的长度,而Document 长度差异可以直接影响到检索的排名。
诸如IndexRowCount这样的统计信息可以有很大的不同。例如,如果有一个全文目录在主索引上包含有20亿记录行,然而基于中间主索引的比较文件这个统计会有偏差值。
更多精彩
赞助商链接