使用IBM OmniFind Enterprise Edition结合分类词典文件实现基于搜索结果分类
2010-02-16 14:59:56 来源:WEB开发网 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鐐劤缂嶅﹪寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閻愵剙鍔ょ紓宥咃躬瀵鎮㈤崗灏栨嫽闁诲酣娼ф竟濠偽i鍓х<闁绘劦鍓欓崝銈囩磽瀹ュ拑韬€殿喖顭烽幃銏ゅ礂鐏忔牗瀚介梺璇查叄濞佳勭珶婵犲伣锝夘敊閸撗咃紲闂佺粯鍔﹂崜娆撳礉閵堝洨纾界€广儱鎷戦煬顒傗偓娈垮枛椤兘骞冮姀銈呯閻忓繑鐗楃€氫粙姊虹拠鏌ュ弰婵炰匠鍕彾濠电姴浼i敐澶樻晩闁告挆鍜冪床闂備浇顕栭崹搴ㄥ礃閿濆棗鐦遍梻鍌欒兌椤㈠﹤鈻嶉弴銏犵闁搞儺鍓欓悘鎶芥煛閸愩劎澧曠紒鈧崘鈹夸簻闊洤娴烽ˇ锕€霉濠婂牏鐣洪柡灞诲妼閳规垿宕卞▎蹇撴瘓缂傚倷闄嶉崝搴e垝椤栫偛桅闁告洦鍨扮粻鎶芥倵閿濆簼绨藉ù鐘荤畺濮婃椽妫冨☉娆愭倷闁诲孩鐭崡鎶芥偘椤曗偓瀹曞爼顢楁径瀣珫婵犳鍣徊鍓р偓绗涘洤绠查柛銉墮閽冪喖鏌i弬鎸庢喐闁荤喎缍婇弻娑⑩€﹂幋婵囩亪濡炪値鍓欓悧鍡涒€旈崘顔嘉ч幖绮光偓鑼嚬缂傚倷绶¢崰妤呭箰閹间焦鍋╅柣鎴f绾偓闂佺粯鍔曠粔闈浳涢崘顔兼槬闁逞屽墯閵囧嫰骞掗幋婵愪紑閻庤鎸风粈渚€鍩為幋锔藉亹闁圭粯甯╂导鈧紓浣瑰劤瑜扮偟鍒掑▎鎾宠摕婵炴垶鐭▽顏堟煙鐟欏嫬濮囨い銉︾箞濮婃椽鏌呴悙鑼跺濠⒀傚嵆閺岀喖鎼归锝呯3闂佹寧绻勯崑娑㈠煘閹寸姭鍋撻敐搴樺亾椤撴稒娅婇柡灞界У濞碱亪骞忕仦钘夊腐闂備焦鐪归崐鏇㈠箠閹邦喗顫曢柟鎯х摠婵挳鏌涢幘鏉戠祷闁告挸宕—鍐Χ閸℃浠搁梺鑽ゅ暱閺呮盯鎮鹃悜钘壩ㄧ憸澶愬磻閹剧粯鏅查幖绮瑰墲閻忓秹姊虹紒妯诲鞍婵炲弶锕㈡俊鐢稿礋椤栨氨鐤€闂傚倸鐗婄粙鎰姳閼测晝纾藉ù锝堟閻撴劖鎱ㄥΟ绋垮婵″弶鍔欓獮妯兼嫚閼碱剦妲伴梻浣稿暱閹碱偊宕愭繝姣稿洭寮舵惔鎾存杸濡炪倖姊婚妴瀣啅閵夛负浜滄い鎾跺仜濡插鏌i敐鍥у幋妤犵偞甯¢獮瀣籍閳ь剟鎮楁繝姘拺閻熸瑥瀚崕妤呮煕濡 鍋撻悢鎻掑緧婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繑銇勯幘鍗炵仼缁炬儳顭烽弻鐔煎礈瑜忕敮娑㈡煃闁垮鐏﹂柕鍥у楠炴帡宕卞鎯ь棜缂傚倸鍊风粈渚€藝闁秴鏋佸┑鐘虫皑瀹撲線鏌涢埄鍐姇闁稿﹦鍏橀弻娑樷攽閸℃浼€濡炪倖姊归崝鏇㈠煘閹达附鍊婚柛銉㈡櫇鏍¢梻浣告啞閹稿鎮烽敂鐣屸攳濠电姴娲﹂崵鍐煃閸濆嫬鏆熼柨娑欑矒濮婇缚銇愰幒鎴滃枈闂佸憡鐟ユ鎼佸煝閹炬枼鍫柛顐ゅ枔閸樻悂鏌h箛鏇炰户缁绢厼鐖煎畷鎴﹀箻鐠囪尙鐤€婵炶揪绲介幉锟犲磹椤栫偞鈷戠痪顓炴噹娴滃綊鎮跺☉鏍у姦闁糕斁鍋撳銈嗗笒閸燁偊鎯冨ú顏呯厸濞达絽婀辨晶顏堟煃鐟欏嫬鐏撮柟顔界懇瀵爼骞嬮悩杈敇闂傚倷绀佸﹢杈ㄧ仚闂佺濮ょ划搴ㄥ礆閹烘绫嶉柛顐ゅ枎娴犺櫣绱撴担鍓插創妞ゆ洘濞婇弫鍐磼濞戞艾骞堥梻浣告惈濞层垽宕濆畝鍕€堕柣妯肩帛閻撴洟鏌熼懜顒€濡煎ù婊勫劤閳规垿鏁嶉崟顐℃澀闂佺ǹ锕ラ悧鐘茬暦濠靛鏅濋柍褜鍓熼垾锕傚锤濡も偓閻掑灚銇勯幒宥堝厡缂佺姴澧介埀顒€鍘滈崑鎾斥攽閻樿京绐旈柛瀣殔閳规垿顢欑涵鐑界反濠电偛鎷戠徊鍨i幇鏉跨闁瑰啿纾崰鎾诲箯閻樼粯鍤戦柤绋跨仛濮f劙姊婚崒姘偓鐑芥嚄閼哥數浠氭繝鐢靛仜椤曨參宕楀Ο渚殨妞ゆ劑鍊栫€氭氨鈧懓澹婇崰鏍р枔閵婏妇绡€闁汇垽娼ф牎缂佺偓婢樼粔鐟邦嚕閺屻儱绠甸柟鐑樼箘閸炵敻鏌i悩鐑橆仩閻忓繈鍔岄蹇涘Ψ瑜夐崑鎾舵喆閸曨剙纰嶅┑鈽嗗亝缁诲倿锝炶箛娑欐優闁革富鍘鹃敍婊冣攽閳藉棗鐏犻柟纰卞亰閿濈偛顓奸崶鈺冿紳婵炶揪缍侀ˉ鎾诲礉瀹ュ鐓欑紒瀣仢閺嗛亶鏌i敐鍥у幋妤犵偛顑夐弫鍐焵椤掑倻涓嶅┑鐘崇閸嬶綁鏌涢妷鎴濆暟妤犲洭鎮楃憴鍕碍缂佸鎸抽垾鏃堝礃椤斿槈褔鏌涢埄鍏狀亪妫勫鍥╃=濞达絽澹婇崕鎰版煕閵娿儱顣崇紒顔碱儏椤撳吋寰勭€n亖鍋撻柨瀣ㄤ簻闁瑰搫绉堕ˇ锔锯偓娈垮枛閻忔繈鍩為幋锕€鐓¢柛鈩冾殘娴狀垶姊洪崨濠庣劶闁告洦鍙庡ú鍛婁繆閵堝繒鍒伴柛鐕佸灦瀹曟劙宕归锝呭伎濠碘槅鍨抽崢褎绂嶆ィ鍐╁€垫慨妯煎亾鐎氾拷

本文介绍了如何使用IBM OmniFind EntERPrise Edition结合IBM开源非结构化信息管理体系结构Unstructured Information Management Architecture(UIMA),来扩展IBM OmniFind Enterprise Edition搜索引擎的语意搜索和结果分类。并通过一个具体的例子,来展现IBM OmniFind Enterprise Edition 强大的语义搜索功能。
背景介绍
搜索引擎是用于主动搜索计算机中的数据信息,并对其进行分析自动建立索引,其索引内容存储在可供查询的大型数据库中。当用户进行查询时,搜索引擎会告诉用户所要查找的内容在哪,并提供相关的链接以便查询。
处于当前这样一个信息爆炸的时代,能够有效地查找到所需要的数据尤为重要。大量的数据信息需要被自动化的进行索引并提供搜索。因此搜索引擎的作用也就变得越来越重要。而如何能够搜索要所需要的数据,如何保证搜索的质量则成为了当前搜索引擎开发人员首要解决的问题。
当前搜索引擎的主要工作方式都是基于关键字的搜索。比如Google、AltaVista、Excite、Baidu等。它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供关键字查询服务。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的内容,便将结果的链接返回给用户。基于关键字的搜索时当前搜索引擎采用的主要手段,但是基于关键字的搜索存在致命的弱点,就是索要搜索的内容中必须包含有查找时输入的关键字。这样,就会严格限制搜索到的结果。例如:当我们将“自然灾害”作为关键词查找时,搜索引擎返回的结果的内容中一定包含了“自然灾害”这个词,但是与自然灾害相关的内容比如:地震、火山、海啸、龙卷风、泥石流等一系列的信息,搜索引擎就查询不到了。
因此IBM OmniFind EntERPrise Edition企业级搜索引擎结合了IBM非结构化信息管理体系结构Unstructured Information Management Architecture(UIMA),有效地实现了语义搜索及其结果的分类,从而解决了这个问题。搜索引擎管理人员只需要配置,并根据需要编写一定程序,就能让搜索引擎具有一定“智能”性。这样不但可以查找到关键词搜索出的结果,同时也可以查找出于关键词相关的一些内容。
实现原理
UIMA实现语义分析引擎的原理
首先需要了解下什么是UIMA。结构化信息管理体系结构Unstructured Information Management Architecture (UIMA)是IBM开源的可以在字处理文档、电子邮件、视频和其他非结构化信息中搜索特定的文本甚至概念。UIMA是将非结构化数据转化为结构化数据的桥梁,也是信息内容分析再加工的一个标准工具。
UIMA 在对文件进行分析建立语义索引的过程主要包括以下几个步骤:
若要对文件进行语义分析,就需要特定的解析复杂字符串的标准方法,在UIMA中我们更多的是使用正则表达式来实现。因此首先需要确立语义规则,创建相应的正则表达式;
根据创建的特定的正则表达式,UIMA会对于文件内容进行匹配,对于符合规则的字符串,UIMA会为之创建一个annotation对象,该对象中主要包含3个关键属性:字符串开始位置、字符串结束位置、字符串语义索引关键字。之后将该对象加入到UIMA 语义索引中。因此,当文件中有多少个匹配特定的正则表达式的字符串,UIMA 语义索引中就会包含相应个数的annotation对象。
举一个简单的例子:以Animal为例,我们的.txt文档中,包含了“Animal”、“pet”、“dog”、“tiger”等词,但是我们需要使用UIMA对整个文档进行语义分析后,将所有属于动物的词都归为一类,并称之为“animal”。因此我们创建的相应的正则表达式为:
清单1. 表达动物的正则表达式
private Pattern animal = Pattern.compile("Animal|pet|sheep|tiger|lion|cat|dog|duck");
|-------10--------20--------30--------40--------50--------60--------70--------80--------9|
|-------- XML error: The previous line is longer than the max of 90 characters ---------|
这样就会将文件内容中所有满足的内容通过匹配提取出来,之后为每一个字符串创建一个annotation对象,该对象记录给一个字符串的起始位置,并赋予共同的语义关键词“animal”。这样语义关键词就是入口点,通过该关键词,就可以找到文件中所有满足条件的词的具体位置。
图 1. 建立语义索引的过程
使用IBM OmniFind EntERPrise Edition结合UIMA实现语义搜索和分类的原理
基于语义搜索和分类的实现,是通过 IBM OmniFind Enterprise Edition的关键词索引结合Unstructured Information Management Architecture(UIMA)的语义分析实现的。IBM OmniFind Enterprise Edition 根据关键词搜索文件内容后,会将根据 UIMA 进行语义分析的结果存储在语义查询索引(semantic search index)中。这样在进行查找时,程序除了查找建立的关键词索引的同时,也会进入语义查询索引中继续查询,从而将基于关键词查找的结果和语义查找的结果同时返回给用户。
UIMA实现语义分析,并将结果加入到索引的过程是在IBM OmniFind Enterprise Edition的Parse阶段实现的。IBM OmniFind Enterprise Edition对收集到的文件进行解析,并按 UIMA中定义的规则建立语义索引。最终将关键词索引及语义索引一起加入到索引文件中。如图所示:
图 2.实现语义分析并将结果加入到索引的过程
赞助商链接