从 Word 粘贴到网页上的 HTML 编辑器时,总会产生很多冗余的标签,删除这些标签对于精简网页大小有极大的好处,以下就利用 JavaScript 的 replace 函数的正则表达式功能来删除这些标签。
var str = HTML 编辑器的 Word 源代码;
str = str.replace(/(\s*)style="([^"]{30,})"(\s*)/gi, " ");
str = str.replace(/(\s*)<span([^>]*)>(\s*)/gi, "");
str = str.replace(/(\s*)<\/span>(\s*)/gi, "");
str = str.replace(/(\s*)<p([^>]*)>(\s*)/gi, "<p>");
str = str.replace(/(\s*)<[a-z]{1}:([^>]*)>(\s*)/gi, "");
str = str.replace(/(\s*)<\/[a-z]{1}:([^>]*)>(\s*)/gi, "");
HTML 编辑器的 Word 源代码 = str;