WEB开发网
开发学院数据库MSSQL Server 如何理解SQL Server中的Ranking 阅读

如何理解SQL Server中的Ranking

 2008-02-20 09:52:56 来源:WEB开发网   
核心提示: ◆Full-Text Catalog全文检索目录,为查询建立的中间索引的集合体,如何理解SQL Server中的Ranking(2),该目录对于SQL Server的管理员来说,要么被建立或者没有建立,例如,如果有一个全文目录在主索引上包含有20亿记录行,◆Word, Token or i

◆Full-Text Catalog

全文检索目录。为查询建立的中间索引的集合体,该目录对于SQL Server的管理员来说,要么被建立或者没有建立。

◆Word, Token or item 关键词

全文搜索引擎搜索的基本单元, Documents文本源被分词成了Word或Token,不同语言其分词结果是不相同的。

◆Occurrence

在文本属性(document property)中关键词Word的偏移量字长是由分词器所决定的。如在第一分词是在发生1处 ,接下来的在2处,依此类推。为了避免在短语和邻近的查询出现假负数结果,在最终的句点和段落尾巴归宿的引入发生较大的差异。

◆Catalog Key

包含关键字的Word和property的组合。

◆HitCount

在一行中有多少次关键字命中的次数。

◆IndexedRowCount

索引行的总数。这种计数是基于中间索引基础上计算出来的。这个数字在精确度上可以存在着很大的不同。

◆KeyRowCount

全文目录中包含关键词的总行数。

◆MaxOccurrence

某一行property的最大匹配值,它可能存放在一个全文目录中。

◆MaxQueryRank

MSFTESQL能够返回最大的Rank值为1000。

Rank排名计算问题

计算排名(Rank)的过程,取决于多项因素。不同的语言分词记号完全不同。例如,字符串“dog-house”可以被分成“dog”、“house” ,而另一种分词方法又可能把它分成“dog-house” 。这意味着,匹配和排序会基于语言的种类而有所不同,因为其中不仅有不同的关键字,还影响到文档Document的长度,而Document 长度差异可以直接影响到检索的排名。

诸如IndexRowCount这样的统计信息可以有很大的不同。例如,如果有一个全文目录在主索引上包含有20亿记录行,然而基于中间主索引的比较文件这个统计会有偏差值。

上一页  1 2 3 4 5  下一页

Tags:如何 理解 SQL

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接