Translate Into English Coffee & Tea
ASP.NET 中的 AJAX ASP.NET 画图全接触 ASP.NET 与 XML 声明式数据绑定 ASP.NET 网页抓取
C# 基础 C# 类教程 C# 加密 ASP.NET 成员资格 非“自动化”处理 Excel
QuickAjax Ajax 完美的语法高亮器 Silverlight Popfly
C# 如何去除 HTML 标签
免费注册联想 5G 网盘

在做搜索引擎时,往往需要把搜索的结果经过处理再存入数据库。

这其中一个问题就是去除 HTML 标签。

我们使用正则表达式来实现,类 Regex 的名称空间是:

System.Text.RegularExpressions

示例:

string str = @"<a href=""
"" target=""_blank"">yes</a>";
Regex regex = new Regex(@"<(.|\n)+?>");
str = regex.Replace(str, "");
MessageBox.Show(str);

说明

Regex 默认支持多行,但大小写敏感,要忽略大小写可在构造函数的第二个参数中设置。这里由于未涉及大小写,故可以不理会。

+? 表示非贪婪匹配,也就是说要求匹配的字符串尽可能的短。

无法正确去除某些非标准的 HTML 代码,比如:<a href=">">cftea</a>,结果将是:">cftea

相关阅读

文章评论
标题:必填
内容:
文章信息