Google搜索引擎的奥秘
2012-06-18 06:49:43 来源:WEB开发网核心提示: 1、背景和问题 据统计超过80%的用户靠搜索引擎获取信息 网站排名是网络搜索引擎的核心 目前Google数据库存储上百亿网页信息, 每天提供查询服务达到3亿多次2、google查询过程示意图3、Google搜索的核心算法 PageRank是 Google 用于评价一个网页的重要性的一种方法.
1、背景和问题
- 据统计超过80%的用户靠搜索引擎获取信息
- 网站排名是网络搜索引擎的核心
- 目前Google数据库存储上百亿网页信息, 每天提供查询服务达到3亿多次
2、google查询过程示意图
3、Google搜索的核心算法
- PageRank是 Google 用于评价一个网页的重要性的一种方法. 通过该方法, Google 将各个网站进行排名. 用户进行相关搜索时, Google 会将符合条件的网站按排名顺序输出.
- PageRank 算法中使用的数学知识包括:正矩阵性质、特征值和特征向量、幂迭代算法、Gauss-Seidel迭代算法等.
- PageRank 得分是介于 0 和 1 之间的一个数,得分越大表示网页越重要.
4、PageRank算法思想简介
1)、 PageRank基于假设关系
“许多优质的网页中超链接的网页,必定是优质网页”,以此判定所有网页的重要性。
重要性由该网页被访问的概率大小来刻画。
- 导入链接:单纯意义上的受欢迎度指标
- 导入链接是否来自受欢迎程度高的:有根据的受欢迎指标
- 导入链接源页面的导出链接:被选中的概率指标
2)、PageRank 是基于这样一个理论:
- 若 B 网页上有连接到 A 网页的链接( 称 B 为 A 的导入链接 ), 说明 B 认为 A 有链接价值,是一个“重要”的网页. 当 B 网页级别 ( 重要性 ) 比较高时, 则A 网页可从 B 网页这个导入链接分得一定的级别 ( 重要性 ), 并平均分配给 A 网页上的所有导出链接.(导出链接就是网站或者页面中有指向别的网站的链接)
- 在PageRank算法中, 一个网页的级别(重要性)大致由下面两个因素决定:该网页的导入链接的数量和这些导入链接的级别(重要性).
5、PageRank计算
1)、邻接矩阵
- 互联网是一个有向图
- 每一个网页是图的一个顶点
- 网页间的每一个超链接是图的一个有向边
- 用邻接矩阵G来表示有向图, 即,若网页j到网页i有超链接, 则gij=1, 否则为gij=0.
邻接矩阵是一个十分庞大有相当稀疏的方阵(用黑色代表1, 用白色代表0)
- 用邻接矩阵G来表示图, 即,若网页j到网页i有超链接, 则gij=1, 否则为gij=0.
- 定义矩阵G的列和与行和
其中 cj(列和) 是页面j的导出链接数目,
- ››搜索引擎优化中与关键字有关的页面排名要素的解析...
- ››搜索引擎网络优化外链网站排名
- ››Google搜索引擎的奥秘
- ››Google测试搜索结果页面右侧内容更丰富的信息栏
- ››Google Dart精粹:应用构建,快照和隔离体
- ››google的代码审查
- ››google analytics清晰追踪爬虫的爬行信息
- ››Google+中文用户在两千万Google+大军中是少数派
- ››搜索引擎页面的设计主要以用户的搜索习惯为主
- ››Google AdWords最昂贵点击成本的20种关键词分类
- ››Google运作经理Bryan Power给出的GOOGLE求职意见
- ››搜索引擎营销:关键词日均搜索量和指数的不同
更多精彩
赞助商链接