基于数据挖掘的数字图书馆个性化服务

　2007-09-17 11:51:53　来源：WEB开发网　　　

核心提示： 常见的数据挖掘方法主要有：统计分析、归纳学习方法、仿生物技术、神经网络、决策树、遗传算法、贝叶斯信念网络、模糊集、粗糙集等，由于各种方法都有自身的功能特点以及应用领域，基于数据挖掘的数字图书馆个性化服务(3)，因此不同方法的选择将影响最后结果的质量和效果，通常是将多种方法结合使用，第二层次

常见的数据挖掘方法主要有：统计分析、归纳学习方法、仿生物技术、神经网络、决策树、遗传算法、贝叶斯信念网络、模糊集、粗糙集等，由于各种方法都有自身的功能特点以及应用领域，因此不同方法的选择将影响最后结果的质量和效果，通常是将多种方法结合使用，形成优势互补。

2．2 Web数据挖掘

数据挖掘的对象是传统的数据库或数据仓库，而Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种Web数据，应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中提取知识，改进站点设计，更好地开展电子商务或改进服务。Web数据挖掘分为Web内容挖掘、Web访问信息挖掘、Web结构挖掘。

2．3 文本数据挖掘（Text Mining）

面向文本信息的数据挖掘，通常称文本挖掘。当数据挖掘的对象完全由文本类型组成时，结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用于表示文档的词频反文献频率（TFIDF）向量表示法、词串表示法，用于文本分类的贝叶斯分类算法（Bayesian classifier）、词集合算法（Bag of word），基于概念的文本聚类算法以及K—最近邻参照分类算法等。

3 数据挖掘在数字图书馆中的应用

3．1 个性化服务

数字图书馆的个性化服务在整个数字图书馆系统中是很关键的部分，如同网络向智能化方向发展一样，信息服务也应“智能化”，即由被动服务转向主动服务，由单纯的信息呈现转向信息生成。数字图书馆的个性化服务主要表现为两个层次：第一层次为按用户要求进行信息订制。例如，慧聪国际I系列应用软件中个性化信息服务软件My info和I get，可以让用户根据自己的需要订制专门信息，其功能包括数字图书馆站内搜索，Internet搜索，时间、日期、重要事件的提示，并可帮助用户建立个性化信息空间。第二层次则是数字图书馆挖掘用户兴趣模式，主动提供服务，使数字图书馆成为一个智能型、主动性的信息提供商。