基于MS Index Server的全文索引实现
2010-02-19 20:34:23 来源:WEB开发网 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鐐劤缂嶅﹪寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閹冣挃闁硅櫕鎹囬垾鏃堝礃椤忎礁浜鹃柨婵嗙凹缁ㄧ粯銇勯幒瀣仾闁靛洤瀚伴獮鍥敍濮f寧鎹囬弻鐔哥瑹閸喖顬堝銈庡亝缁挸鐣烽崡鐐嶆棃鍩€椤掑嫮宓佸┑鐘插绾句粙鏌涚仦鎹愬闁逞屽墰閹虫捇锝炲┑瀣╅柍杞拌兌閻ゅ懐绱撴担鍓插剱妞ゆ垶鐟╁畷銉р偓锝庡枟閻撴洘銇勯幇闈涗簼缂佽埖姘ㄧ槐鎾诲礃閳哄倻顦板┑顔硷工椤嘲鐣烽幒鎴旀瀻闁规惌鍘借ⅵ濠电姷鏁告慨顓㈠磻閹剧粯鈷戞い鎺嗗亾缂佸鏁婚獮鍡涙倷閸濆嫮顔愬┑鐑囩秵閸撴瑦淇婇懖鈺冪<闁归偊鍙庡▓婊堟煛鐏炵硶鍋撻幇浣告倯闁硅偐琛ラ埀顒冨皺閺佹牕鈹戦悙鏉戠仸闁圭ǹ鎽滅划鏃堟偨缁嬭锕傛煕閺囥劌鐏犻柛鎰ㄥ亾婵$偑鍊栭崝锕€顭块埀顒佺箾瀹€濠侀偗婵﹨娅g槐鎺懳熺拠鑼舵暱闂備胶枪濞寸兘寮拠宸殨濠电姵纰嶉弲鎻掝熆鐠虹尨宸ョ€规挸妫濆铏圭磼濡搫顫嶇紓浣风劍閹稿啿鐣烽幋锕€绠婚悹鍥у级瀹撳秴顪冮妶鍡樺鞍缂佸鍨剁粋宥夋倷椤掍礁寮垮┑鈽嗗灣閸樠勭妤e啯鍊垫慨妯煎亾鐎氾拷

关于文档格式扩展。为了实现对aspx,apcx可以通过增中过滤器来实现。 例如对aspx,和ascx的索引可以在注册表中加以下注册项。
[HKEY_CLASSES_ROOT\.aspx\PersistentHandler] ="{eec97550-47a9-11cf-b952-00aa0051fe20}"
[HKEY_CLASSES_ROOT\.ascx\PersistentHandler] ="{eec97550-47a9-11cf-b952-00aa0051fe20}"
对于pdf格式的过滤器在adobe的网站上也有。
附录
字段名 字段类型 说明
---------------------------------------------------------------------------
Access 日期/时间 上次访问文件的时间。
Characterization 文本/字符串 文档的特征或摘要。由索引服务器计算。
Create 日期/时间 文件的创建时间。
Directory 文本/字符串 文件的物理路径,不包括文件名。
DocAppName 文本/字符串 创建文件的应用程序的名称。
DocAuthor 文本/字符串 文档的作者。
DocByteCount 数字 文档的字节数。
DocCategory 文本/字符串 文档的类型,如备注、计划或白皮书。
DocCharCount 数字 文档中的字符数。
DocComments 文本/字符串 有关文档的注释。
DocCompany 文本/字符串 为其编写文档的公司的名称。
DocCreatedTm 日期/时间 文档的创建时间。
DocEditTime 日期/时间 编辑文档所花费的总时间。
DocHiddenCount 数字 PowerPoint 文件中的隐藏幻灯片数。
DocKeywords 文本/字符串 文档的关键字。
DocLastAuthor 文本/字符串 最近编辑过文档的用户。
DocLastPrinted 日期/时间 上次打印文档的时间。
DocLastSavedTm 日期/时间 上次保存文档的时间。
DocLineCount 数字 文档中包含的行数。
DocManager 文本/字符串 文档作者的管理者名称。
DocNoteCount 数字 PowerPoint 文件中带有注释的页数。
DocPageCount 数字 文档中的页数。
DocParaCount 数字 文档中的段落数。
DocPartTitles 文本/字符串 文档组成部分的名称。例如,在 Microsoft Excel 中,电子表格是文档的组成部分。在 PowerPoint 中,幻灯片是文档的组成部分。在 Word 中,包含在主文档中的文档的文件名是文档的组成部分。
DocPresentationTarget 文本/字符串 PowerPoint 演示文稿的目标格式(如 35mm、打印机、视频,等等)。
DocRevNumber 文本/字符串 文档的当前版本号。
DocSlideCount 数字 PowerPoint 文件中的幻灯片数。
DocSubject 文本/字符串 文档的主题。
DocTemplate 文本/字符串 文档的模板名称。
DocTitle 文本/字符串 文档的标题。
DocWordCount 数字 文档中的字数。
FileIndex 数字 文件的唯一标识。
FileName 文本/字符串 文件的名称。
HitCount 数字 文件中的匹配(与查询匹配的字词)数。
Path 文本/字符串 文件的完整物理路径,包括文件名。
Rank 数字 行的等级号。范围介于 0 到 1000 之间。数字越大,匹配率越高。
ShortFileName 文本/字符串 简短 (8.3) 文件名。
Size 数字 文件大小,以字节为单位。
VPath 文本/字符串 文件的完整虚拟路径,包括
文件名。如果有多个可能的路径,则选择与特定查询最匹配的路径。
Write 日期/时间 上次编写文件的时间。
本文配套源码
更多精彩
赞助商链接