Question 1

用于检查字符串是否为 HTML 的更好的正则表达式是：

/^/

例如：

/^/.test('') // true
/^/.test('foo bar baz') //true
/^/.test('<p>fizz buzz</p>') //true

事实上，它非常好，它会true为传递给它的每个字符串返回，这是因为每个字符串都是 HTML。说真的，即使它的格式很差或无效，它仍然是 HTML。

如果您要查找的是 HTML 元素的存在，而不是简单的任何文本内容，您可以使用以下内容：

/<\/?[a-z][\s\S]*>/i.test()

它不会以任何方式帮助您解析 HTML，但它肯定会将字符串标记为包含 HTML 元素。

Question 2

方法#1。这是测试字符串是否包含 HTML 数据的简单函数：

function isHTML(str) {
  var a = document.createElement('div');
  a.innerHTML = str;

  for (var c = a.childNodes, i = c.length; i--; ) {
    if (c[i].nodeType == 1) return true; 
  }

  return false;
}

这个想法是让浏览器 DOM 解析器决定提供的字符串是否看起来像 HTML。如您所见，它只是检查ELEMENT_NODE( nodeTypeof 1)。

我做了几个测试，看起来它有效：

isHTML('<a>this is a string</a>') // true
isHTML('this is a string')        // false
isHTML('this is a <b>string</b>') // true

此解决方案将正确检测 HTML 字符串，但是它有副作用 img/vide/etc. 一旦在innerHTML中解析，标签将开始下载资源。

方法#2。另一种方法使用DOMParser并且没有加载资源的副作用：

function isHTML(str) {
  var doc = new DOMParser().parseFromString(str, "text/html");
  return Array.from(doc.body.childNodes).some(node => node.nodeType === 1);
}

_{注：
1.Array.from是 ES2015 方法，可以替换为[].slice.call(doc.body.childNodes).
2.some调用中的箭头函数可以替换为常用的匿名函数。}

Question 3

一点点验证：

/<(?=.*? .*?\/ ?>|br|hr|input|!--|wbr)[a-z]+.*?>|<([a-z]+).*?<\/\1>/i.test(htmlStringHere)

这将搜索空标签（一些预定义的）和/终止的 XHTML 空标签，并由于空标签验证为 HTML 或将捕获标签名称并尝试在字符串中的某处找到它的结束标签以验证为 HTML。

解释演示：http : //regex101.com/r/cX0eP2

更新：

完成验证：

/<(br|basefont|hr|input|source|frame|param|area|meta|!--|col|link|option|base|img|wbr|!DOCTYPE).*?>|<(a|abbr|acronym|address|applet|article|aside|audio|b|bdi|bdo|big|blockquote|body|button|canvas|caption|center|cite|code|colgroup|command|datalist|dd|del|details|dfn|dialog|dir|div|dl|dt|em|embed|fieldset|figcaption|figure|font|footer|form|frameset|head|header|hgroup|h1|h2|h3|h4|h5|h6|html|i|iframe|ins|kbd|keygen|label|legend|li|map|mark|menu|meter|nav|noframes|noscript|object|ol|optgroup|output|p|pre|progress|q|rp|rt|ruby|s|samp|script|section|select|small|span|strike|strong|style|sub|summary|sup|table|tbody|td|textarea|tfoot|th|thead|time|title|tr|track|tt|u|ul|var|video).*?<\/\2>/i.test(htmlStringHere)

这会进行适当的验证，因为它包含所有HTML 标签，首先是空标签，然后是需要结束标签的其余标签。

在这里解释演示：http : //regex101.com/r/pE1mT5

Question 4

上面zzzzBov 的回答很好，但它没有考虑杂散的结束标签，例如：

/<[a-z][\s\S]*>/i.test('foo </b> bar'); // false

一个也能捕获结束标签的版本可能是这样的：

/<[a-z/][\s\S]*>/i.test('foo </b> bar'); // true

Question 5

这是我不时使用的草率单线：

var isHTML = RegExp.prototype.test.bind(/(<([^>]+)>)/i);

它基本上会返回true包含<后跟ANYTHING后跟的字符串>。

通过ANYTHING，我的意思基本上是除了空字符串之外的任何东西。

它不是很好，但它是一个单线。

用法

isHTML('Testing');               // false
isHTML('<p>Testing</p>');        // true
isHTML('<img src="hello.jpg">'); // true
isHTML('My < weird > string');   // true (caution!!!)
isHTML('<>');                    // false

正如您所看到的，它远非完美，但在某些情况下可能会为您完成这项工作。

Answer 1