WEB开发网
开发学院WEB开发ASP.NET 利用正则表达式去掉html代码 阅读

利用正则表达式去掉html代码

 2006-09-18 17:15:57 来源:WEB开发网   
核心提示:using System.Text.RegularExPRessions;//需要引用 // 利用正则表达式去掉"<"和">"之间的内容 private string StripHT(string strHtml) { Regex regex=new Regex

using System.Text.RegularExPRessions;//需要引用

  // 利用正则表达式去掉"<"和">"之间的内容
  private string StripHT(string strHtml)
  {
  Regex regex=new Regex("<.+?>",RegexOptions.IgnoreCase);
  string strOutput=regex.Replace(strHtml,"");
  return strOutput;
  }


//方法二(不知为什么此方法占用CPU100%)

public static string DropHTML(string strHtml)
  {
  string [] aryReg ={
      @"<script[^>]*?>.*?</script>",
      @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""''])(\\[""''tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
      @"([\r])[\s]+",
      @"&(quot|#34);",
      @"&(amp|#38);",
      @"&(lt|#60);",
      @"&(gt|#62);",
      @"&(nbsp|#160);",
      @"&(iexcl|#161);",
      @"&(cent|#162);",
      @"&(pound|#163);",
      @"&(copy|#169);",
      @"&#(\d+);",
      @"-->",
      @"<!--.*"    
     };

  string [] aryRep = {
      "",
      "",
      "",
      "\"",
      "&",
      "<",
      ">",
      " ",
      "\xa1",//chr(161),
      "\xa2",//chr(162),
      "\xa3",//chr(163),
      "\xa9",//chr(169),
      "",
      "\r",
      ""  
      };

  string newReg =aryReg[0];
  string strOutput=strHtml;
  for(int i = 0;i<aryReg.Length;i++)
  {
   Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
   strOutput = regex.Replace(strOutput,aryRep[i]);
  }

  strOutput.Replace("<","");
  strOutput.Replace(">","");
  strOutput.Replace("\r","");
  return strOutput;
   
  }
http://www.cnblogs.com/wang123/archive/2006/09/16/505758.html

Tags:利用 正则 表达式

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接