ASP.NET(C#) 如何去除 HTML 标签

作者:vkvi 来源:ITPOW(原创) 日期:2008-3-26

在做搜索引擎时,往往需要把搜索的结果经过处理再存入数据库。

这其中一个问题就是去除 HTML 标签。

我们使用正则表达式来实现,类 Regex 的名称空间是:

System.Text.RegularExpressions

示例:

string str = @"<a href=""
"" target=""_blank"">cftea</a>";
Regex regex = new Regex(@"<(.|\n)+?>");
str = regex.Replace(str, "");
MessageBox.Show(str);

说明

Regex 默认支持多行,但大小写敏感,要忽略大小写可在构造函数的第二个参数中设置。这里由于未涉及大小写,故可以不理会。

+? 表示非贪婪匹配,也就是说要求匹配的字符串尽可能的短。

无法正确去除某些非标准的 HTML 代码,比如:<a href=">">cftea</a>,结果将是:">cftea

相关阅读

相关文章