开发学院数据库 MSSQL Server 如何理解SQL Server中的Ranking 阅读

如何理解SQL Server中的Ranking

　2008-02-20 09:52:56　来源：WEB开发网　　　

核心提示： ◆Full-Text Catalog全文检索目录，为查询建立的中间索引的集合体，如何理解SQL Server中的Ranking(2)，该目录对于SQL Server的管理员来说，要么被建立或者没有建立，例如，如果有一个全文目录在主索引上包含有20亿记录行，◆Word, Token or i

◆Full-Text Catalog

全文检索目录。为查询建立的中间索引的集合体，该目录对于SQL Server的管理员来说，要么被建立或者没有建立。

◆Word, Token or item 关键词

全文搜索引擎搜索的基本单元， Documents文本源被分词成了Word或Token，不同语言其分词结果是不相同的。

◆Occurrence

在文本属性(document property)中关键词Word的偏移量字长是由分词器所决定的。如在第一分词是在发生1处，接下来的在2处，依此类推。为了避免在短语和邻近的查询出现假负数结果，在最终的句点和段落尾巴归宿的引入发生较大的差异。

◆Catalog Key

包含关键字的Word和property的组合。

◆HitCount

在一行中有多少次关键字命中的次数。

◆IndexedRowCount

索引行的总数。这种计数是基于中间索引基础上计算出来的。这个数字在精确度上可以存在着很大的不同。

◆KeyRowCount

全文目录中包含关键词的总行数。

◆MaxOccurrence

某一行property的最大匹配值,它可能存放在一个全文目录中。

◆MaxQueryRank

MSFTESQL能够返回最大的Rank值为1000。

Rank排名计算问题

计算排名(Rank)的过程，取决于多项因素。不同的语言分词记号完全不同。例如，字符串“dog-house”可以被分成“dog”、“house” ，而另一种分词方法又可能把它分成“dog-house” 。这意味着，匹配和排序会基于语言的种类而有所不同，因为其中不仅有不同的关键字，还影响到文档Document的长度，而Document 长度差异可以直接影响到检索的排名。

诸如IndexRowCount这样的统计信息可以有很大的不同。例如，如果有一个全文目录在主索引上包含有20亿记录行，然而基于中间主索引的比较文件这个统计会有偏差值。