基于数据挖掘的数字图书馆个性化服务

　2007-09-17 11:51:53　来源：WEB开发网　　　

核心提示： （2）定题与查新服务，这两种常用的针对科研的信息服务，基于数据挖掘的数字图书馆个性化服务(5)，其传统方式是检索文献或光盘数据库，然而在网络时代，构建相关主题的数据仓库，为下一步的数据挖掘过程提供基础平台，我们更不能忽视对外部网络这一即时便利的信息发布平台的搜索，才能确保查新结果的可靠性

（2）定题与查新服务。这两种常用的针对科研的信息服务，其传统方式是检索文献或光盘数据库，然而在网络时代，我们更不能忽视对外部网络这一即时便利的信息发布平台的搜索，才能确保查新结果的可靠性。同时，数字图书馆可运用兴趣模式算法判断并争取潜在用户，在服务过程中，还可利用可视化技术帮助用户进行在线实时信息分析。

（3）信息分析服务。有专家指出，“对文本的探索性数据分析（EDA）才是真正的文本挖掘”。它是指直接对文本数据及其相互间的关系进行分析，从而识别出未知的、有用的知识的过程。例如，利用文本EDA形成一些科学假设等。基于此，数字图书馆可提供面向商业用户的信息分析，帮助它们确定发展和竞争策略，实现自身的收益。

4 构建数字图书馆个性化服务系统

利用数据挖掘技术构建数字图书馆个性化服务系统的前提和基础是拥有大量、真实的数据积累，没有数据积累，数据挖掘将无用武之地，因此要踏踏实实做好基础数据库的建设。在建库及数据挖掘的整个过程中，需要各方人员共同参与，通力合作。

4．1 提取原始信息和收集用户特征

用户通过浏览器访问数字图书馆时，系统可以记录下来的用户访问数据有两类：用户信息和用户行为特征。用户信息包括用户的姓名、性别、年龄、职业、爱好、教育程度以及用户访问IP地址等；利用Web日志记录可获得用户的行为特征，如对知识点的点击率、停留时间、访问次数、下载次数、搜索关键词及模式等信息，还有用户的主观信息，如网络调查、BBS留言等。准确把握用户的行为特征和偏好，是提供更精确、更符合用户需求的信息服务的首要条件。

4．2 数据预处理和数据转换

对收集到的数据进行加工处理和组织重构，如检查数据的完整性及数据的一致性、去除噪声或删除无效数据、填补丢失的域、去除空白数据域、考虑时间顺序和数据变化；找到数据的特征，用维变换或转换方法减少有效变量的数目，找到数据的不变式，构建相关主题的数据仓库，为下一步的数据挖掘过程提供基础平台，做好前期准备。