WEB开发网      濠电姷鏁告繛鈧繛浣冲洤纾瑰┑鐘宠壘閻ょ偓銇勯幇鍫曟闁稿鍠愰妵鍕冀閵娧佲偓鎺楁⒒閸曨偄顏柡宀嬬畱铻e〒姘煎灡绗戦梻浣筋嚙濮橈箓顢氳濠€浣糕攽閻樿宸ュΔ鐘叉啞缁傚秹宕滆绾惧ジ寮堕崼娑樺缂佹宀搁弻鐔风暋閻楀牆娈楅梺璇″枓閺呯姴鐣疯ぐ鎺濇晝闁靛牆妫欓蹇旂節閻㈤潧浠﹂柛銊ョ埣楠炴劙骞橀鑲╋紱闂佽宕樼粔顔裤亹閹烘挸浜归梺缁樺灦閿曗晛螞閸曨垱鈷戦柟鑲╁仜婵″ジ鎮楀☉鎺撴珖缂侇喖顑呴鍏煎緞濡粯娅囬梻浣瑰缁诲倿寮绘繝鍥ㄦ櫇闁稿本绋撻崢鐢告煟鎼淬垻鈯曢柨姘舵煟韫囥儳绋荤紒缁樼箖缁绘繈宕橀妸褌绱濋梻浣筋嚃閸ㄤ即宕弶鎴犳殾闁绘梻鈷堥弫鍌炴煕閳锯偓閺呮瑧妲愬Ο琛℃斀闁绘劕妯婇崵鐔封攽椤旇棄鍔ら摶鐐烘煕閺囥劌澧柛娆忕箻閺屽秹宕崟顒€娅g紓浣插亾濠㈣泛顑囩粻楣冩煙鐎涙ḿ绠橀柨娑樼У椤ㄣ儵鎮欓鍕紙闂佽鍠栫紞濠傜暦閹偊妲诲┑鈩冨絻椤兘寮诲☉銏犖╅柕澶堝労閸斿绱撴担绋库偓鍝ョ矓瑜版帒鏋侀柟鍓х帛閺呮悂鏌ㄩ悤鍌涘 ---闂傚倸鍊烽悞锔锯偓绗涘厾娲煛閸涱厾顔嗛梺璺ㄥ櫐閹凤拷
开发学院软件开发C++ 字符串近似匹配算法 阅读

字符串近似匹配算法

 2008-03-08 21:51:17 来源:WEB开发网 闂傚倸鍊风欢姘缚瑜嶈灋闁圭虎鍠栫粻顖炴煥閻曞倹瀚�闂傚倸鍊风粈渚€骞夐敓鐘插瀭闁汇垹鐏氬畷鏌ユ煙閹殿喖顣奸柛搴$У閵囧嫰骞掗幋婵冨亾閻㈢ǹ纾婚柟鐐灱濡插牊绻涢崱妤冃℃繛宀婁簽缁辨捇宕掑鎵佹瀸闂佺懓鍤栭幏锟�濠电姷鏁告慨顓㈠箯閸愵喖宸濇い鎾寸箘閹规洟姊绘笟鈧ḿ褍煤閵堝悿娲Ω閳轰胶鍔﹀銈嗗笂閼冲爼鍩婇弴銏$厪闁搞儮鏅涙禒褏绱掓潏鈺佷槐闁轰焦鎹囬弫鎾绘晸閿燂拷闂傚倸鍊风欢姘缚瑜嶈灋闁圭虎鍠栫粻顖炴煥閻曞倹瀚�  闂傚倸鍊烽懗鑸电仚缂備胶绮〃鍛村煝瀹ュ鍗抽柕蹇曞У閻庮剟姊虹紒妯哄闁圭⒈鍋嗛惀顏囶樄闁哄本娲樼换婵婄疀閺囩姷鐛ラ梻浣哄帶婢瑰﹥绂嶅⿰鍫氣偓鏃堝礃椤忎礁浜鹃柨婵嗛婢ь喖霉閻樻瑥瀚粻楣冩煕椤愩倕鏋庨柣蹇嬪劜閵囧嫰寮村Ο鍝勫Е濡炪們鍨洪悷鈺呭箖閳╁啯鍎熼柕鍥у簻閹凤拷
核心提示:字符串的近似匹配,就是答应在匹配时有一定的误差,字符串近似匹配算法,比如在字串“以前高手好久不见”中找“以前是高手”也能成功,具体地说,看算法吧,看不懂?没事了,错误可以有三种类型:加字符(以前也是高手)、漏字符(以前高手)和替换字符(以前石膏手),下面的函数在text中查找子串pat

  字符串的近似匹配,就是答应在匹配时有一定的误差,比如在字串“以前高手好久不见”中找“以前是高手”也能成功。具体地说,错误可以有三种类型:加字符(以前也是高手)、漏字符(以前高手)和替换字符(以前石膏手)。下面的函数在text中查找子串pat,最多答应有k个错误。返回的是匹配的终点(我还没想好如何确定起点,呵呵)。
至于算法的原理,现在一下子说不清楚,只能说这是一个非确定性有限自动机,以后有时间的话再具体介绍。有爱好的话可以自己去看文章《Faster ApPRoximate String Matching》, Algorithmica (1999) 23: 127-158。

算法的限制:(m-k)*(k+2) <= 64, 这里m是子串的长度。那个64是因为哦用了64位整数来编码自动机的状态。假如答应两个错误,则子串最长为18个字符,对一般应用来说足够了。

好了,废话少说,看算法吧。看不懂?没事了,哦也是半懂半不懂的。

char* amatch(const char* text, const char* pat, int k)
{
 int m = strlen(pat);
 assert(m-k>0);
 assert((m-k)*(k+2)<= 64);
 int j;
 __int64 Din = 0;
 __int64 M1 = 0;
 __int64 M2 = 0;
 __int64 M3 = 0;
 __int64 G = 1 << k;
 int onekp1 = (1 << (k+1)) - 1;
 for (j=0; j<m-k; j++)
 {
  Din = (Din << (k+2))onekp1;
  M1 = (M1 << (k+2))1;
  if (j < m-k-1)
   M2 = (M2 << (k+2)) 1;
 }
 M2=(M2<<(k+2))onekp1;
 __int64 D=Din;
 const char* s=text;
 int c=*s++;
 while(c)
 {
  int found=0;
  const char* sp=pat;
  for(j=0;j<k+1;j++)
  {
   int cp=*sp++;
   if(c==cp)
   {
    found=1;
    break;
   }
  }
  if(found)
  {
   do
   {
    __int64 tc = 0;
    const char* sp = pat;
    for (j=0; j<m; j++)
    {
     int cp = *sp++;
     if (c!=cp)
     c=(1<<j);
    }
    __int64 Tc = 0;
    for (j=0; j<m-k; j++)
    Tc = (Tc<<(k+2))((tc>>j)&onekp1);
    __int64 x = (D>>(k+2))Tc;
    D=((D<<1)M1)&((D<<(k+3))M2)&(((x+M1)^x)>>1)&Din;
    if((D & G) == 0)
     return (char*)s;
    if(D != Din)
     c = *s++;
   }
   while ( D != Din && c);
  }
  if (c)
   c = *s++;
}
return NULL;


Tags:字符串 近似 匹配

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接