WEB开发网
开发学院CMS教程织梦CMS dede采集教程--过滤规则 阅读

dede采集教程--过滤规则

 2012-03-25 16:30:54 来源:WEB开发网   
核心提示: dede的过滤规则并不难写,其写法如下面{dede:trim}这里就是要过滤的内容{/dede:trim}如果你要过滤的内容比较简单的代码,dede采集教程--过滤规则,完全可以直接在“{dede:trim}”和“{/dede:trim}”之间写上,如果比较复杂的就要用

 dede的过滤规则并不难写,其写法如下面

{dede:trim}这里就是要过滤的内容{/dede:trim}
如果你要过滤的内容比较简单的代码,完全可以直接在“{dede:trim}”和“{/dede:trim}”之间写上,如果比较复杂的就要用到正则了。

1、例如采集中去除内容里的超链接的规则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}

假如要将所有超链接内容都去除,规则是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容:<a href="#">超链接</a>
通过第一个规则,我们采集来的结果是:超链接
通过第二个规则,我们采集来的结果是:空白,即是将所有内容都过滤掉了。

2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
这样的规则只需
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:
{dede:trim}<script>(.*)</script>{/dede:trim}

3、下面是一些常识用的过滤规则

{dede:trim}<!–(.*)–>{/dede:trim}

1 2 3  下一页

Tags:dede 采集 教程

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接