JavaScript 中所有可打印字符的正则表达式

IT技术 javascript regex
2021-01-28 17:15:26

寻找用于验证所有可打印字符的正则表达式。正则表达式只需要在 JavaScript 中使用。我已经阅读了这篇文章,但它主要讨论了 .net、Java 和 C,而不是 JavaScript。

您必须只允许这些可打印字符:

az、AZ、0-9 和三十二个符号:!"#$%&'()*+,-./:;<=>?@[] ^_`{|}~ 和空格

需要一个 JavaScript 正则表达式来验证输入字符是上述字符之一并丢弃其余字符。

5个回答

如果您想匹配 UTF-8 集中的所有可打印字符(如您在 8 月 21 日的评论所示),您自己将很难做到这一点。JavaScript 的原生正则表达式对 Unicode 的支持非常糟糕。但是您可以将XRegExp与 regex 一起使用^\P{C}*$

如果您只想将编辑中提到的那几个 ASCII 字母与 8 月 22 日的帖子相匹配,那么正则表达式很简单:

/^[a-z0-9!"#$%&'()*+,.\/:;<=>?@\[\] ^_`{|}~-]*$/i
en.wikipedia.org/wiki/UTF-8 在这些给定的字符中,我想检查输入的字符串是否有任何不可打印的字符,或者在按键时我想检查输入的字符是否可打印。
2021-03-16 17:15:26
@AurA:XRegExp 编译为原生 JavaScript。
2021-03-21 17:15:26
我想这是一个很好的解决方案,但假设我只想要 UTF-8 的可打印字符,你能在不使用任何第三方 JavaScript 库的情况下给我一个正则表达式吗?
2021-03-29 17:15:26
UTF-8具有EXACTLY相同的字符数为UTF-16和UTF-32的。UTF-8 只是一种编码——它包含所有的 unicode——整个东西。你是说ASCII吗?
2021-03-29 17:15:26
我已经知道了,但我在这里有这个限制……我不能使用第三方库。这就是为什么我只要求使用 UTF-8,这会大大减少字符数,并且可以用正则表达式处理。
2021-04-09 17:15:26

要验证字符串仅包含可打印的ASCII字符,请使用简单的正则表达式,如

/^[ -~]+$/

它匹配

  • ^ - 字符串锚的开始
  • [ -~]+- 一个或多个(由于+量词)在 ASCII 表中从空格到波浪号的范围内的字符:

在此处输入图片说明
--$字符串锚点的结尾

对于 Unicode 可打印字符,使用\PCUnicode 类别(匹配任何字符,但控制字符) from XRegExp,正如已经提到的:

^\PC+$

请参阅正则表达式演示:

// ASCII only
var ascii_print_rx = /^[ -~]+$/;
console.log(ascii_print_rx.test("It's all right.")); // true
console.log(ascii_print_rx.test('\f ')); // false, \f is an ASCII form feed char
console.log(ascii_print_rx.test("demásiado tarde")); // false, no Unicode printable char support
// Unicode support
console.log(XRegExp.test('demásiado tarde', XRegExp("^\\PC+$"))); // true
console.log(XRegExp.test('‌ ', XRegExp("^\\PC+$"))); // false, \u200C is a Unicode zero-width joiner
console.log(XRegExp.test('\f ', XRegExp("^\\PC+$"))); // false, \f is an ASCII form feed char
<script src="http://cdnjs.cloudflare.com/ajax/libs/xregexp/3.1.1/xregexp-all.min.js"></script>

第一个选项很巧妙(除非我们需要 Unicode)。
2021-04-09 17:15:26

对于非 unicode 使用正则表达式模式 ^[^\x00-\x1F\x80-\x9F]+$


如果您想使用 unicode,请先阅读Javascript + Unicode regexes

我建议然后使用正则表达式模式 ^[^\p{Cc}\p{Cf}\p{Zl}\p{Zp}]*$

  • \p{Cc}\p{Control}:ASCII 0x00..0x1F 或 Latin-1 0x80..0x9F 控制字符。
  • \p{Cf}\p{Format}: 不可见的格式指示符。
  • \p{Zl}\p{Line_Separator}:行分隔符 U+2028。
  • \p{Zp}\p{Paragraph_Separator}:段落分隔符 U+2029。

有关更多信息,请参阅http://www.regular-expressions.info/unicode.html

您可以使用github.com/mathiasbynens/regexpu-core将其转译为 ES5。
2021-04-11 17:15:26

自从发布这个问题以来,JavaScript 似乎在某种程度上发生了变化?

我正在使用这个:

var regex = /^[\u0020-\u007e\u00a0-\u00ff]*$/;
console.log( regex.test("!\"#$%&'()*+,-./:;<=>?@[] ^_`{|}~")); //should output "true" 
console.log( regex.test("Iñtërnâtiônàlizætiøn")); //should output "true"
console.log( regex.test("☃💩")); //should output "false" 
我认为应该是 \x20-\x7e \x80-\xff
2021-04-12 17:15:26

TLDR 答案

使用string1.match(/[\p{Cc}\p{Cn}\p{Cs}]+/gu)为条件,与真正意义上string1 包含任何不可打印的字符。

或者,如果您想要逻辑等效项,则string1.match(/^[\P{Cc}\P{Cn}\P{Cs}]+$/gu)作为条件,如果仅包含可打印字符,则将返回 true string1

TLDR 解释

  • \P{Cc}:匹配控制字符。
  • \P{Cn}:匹配未分配的字符。
  • \P{Cs}:匹配 UTF-8 无效字符。
  • +: 确保找到了一些东西,即这也意味着"",空白字符串将不被视为可打印的。
  • /g : 贪婪匹配,穷举/贪婪地在字符串中搜索指示的字符集。
  • /u: unicode regex 运算符,用于匹配 unicode 字符点。(来源:MDN 网络文档:正则表达式;Unicode 属性转义。)

演示

var string1 = 'This string has unprintable characters \u0001';

if(string1.match(/[\p{Cc}\p{Cn}\p{Cs}]+/gu)) {
  console.log("Unprintable string: " + string1);
}
var string2 = 'This string has only printable characters.';

if(string2.match(/^[\P{Cc}\P{Cn}\P{Cs}]+$/gu)) {
  console.log("Printable string: " + string2);
}

可能的选择

  • \P{C}: 只匹配可见字符。不匹配任何不可见字符。
  • \P{Cc}: 只匹配非控制字符。不匹配任何控制字符。
  • \P{Cc}\P{Cn}: 仅匹配已分配的非控制字符。不匹配任何控制或未分配的字符。
  • \P{Cc}\P{Cn}\P{Cs}: 仅匹配已分配且 UTF-8 有效的非控制字符。不匹配任何控制字符、未分配字符或 UTF-8 无效字符。
  • \P{Cc}\P{Cn}\P{Cs}\P{Cf}: 仅匹配已分配且 UTF-8 有效的非控制、非格式化字符。不匹配任何控制、未分配、格式或 UTF-8 无效字符。

来源和解释

查看可用于在正则表达式中进行测试的可用Unicode 字符属性您应该能够在Microsoft .NETJavaScriptPythonJavaPHPRubyPerlGolang甚至Adobe 中使用这些正则表达式了解 Unicode 字符类是非常可迁移的知识,所以我推荐使用它!

这个正则表达式将匹配任何可见的东西,以它的简写和长写形式给出......

\p{L}\p{M}\p{N}\p{P}\p{S}\p{Z}
\p{Letter}\p{Mark}\p{Number}\p{Punctuation}\p{Symbol}\p{Separator}

\p表示它是我们想要匹配的东西,但我们也可以选择使用\P(大写)来表示不匹配的东西 因此,这意味着我们可以使用\p{C}用于“不可见的控制字符和未使用的代码点”的类。(来源:Regular-Expressions.info。)一个更简单的正则表达式是\P{C},但这在删除不可见格式时可能过于严格。您可能想仔细查看并了解什么是最好的,但其中一种替代方法应该适合您的需求。

所有可匹配的 Unicode 字符集

如果您想知道任何其他可用的字符集,请查看正则表达式.info ...

  • \p{L}\p{Letter}:来自任何语言的任何类型的信件。
    • \p{Ll}\p{Lowercase_Letter}:具有大写变体的小写字母。
    • \p{Lu}\p{Uppercase_Letter}:具有小写变体的大写字母。
    • \p{Lt}\p{Titlecase_Letter}:出现在单词开头的字母,只有单词的第一个字母大写。
    • \p{L&}\p{Cased_Letter}:以小写和大写变体形式存在的字母(Ll、Lu 和 Lt 的组合)。
    • \p{Lm}\p{Modifier_Letter}: 像字母一样使用的特殊字符。
    • \p{Lo}or \p{Other_Letter}: 没有大小写的字母或表意文字
  • \p{M}\p{Mark}:旨在与另一个字符组合的字符(例如重音符号、变音符号、封闭框等)。
    • \p{Mn}\p{Non_Spacing_Mark}:旨在与另一个字符组合而不占用额外空间的字符(例如重音、变音等)。
    • \p{Mc}\p{Spacing_Combining_Mark}: 打算与另一个占用额外空间的字符组合的字符(许多东方语言中的元音符号)。
    • \p{Me}\p{Enclosing_Mark}: 一个字符,它包含与其组合的字符(圆形、方形、键帽等)。
  • \p{Z}\p{Separator}:任何类型的空格或不可见的分隔符。
    • \p{Zs}\p{Space_Separator}: 一个不可见的空白字符,但会占用空间。
    • \p{Zl}\p{Line_Separator}:行分隔符 U+2028。
    • \p{Zp}\p{Paragraph_Separator}:段落分隔符 U+2029。
  • \p{S}\p{Symbol}:数学符号、货币符号、丁字格、方框图字符等。
    • \p{Sm}\p{Math_Symbol}:任何数学符号。
    • \p{Sc}\p{Currency_Symbol}:任何货币符号。
    • \p{Sk}\p{Modifier_Symbol}: 一个组合字符(标记)作为一个完整的字符。
    • \p{So}\p{Other_Symbol}:不是数学符号、货币符号或组合字符的各种符号。
  • \p{N}\p{Number}: 任何脚本中的任何类型的数字字符。
    • \p{Nd}\p{Decimal_Digit_Number}: 除表意文字外的任何文字中的数字零到九。
    • \p{Nl}\p{Letter_Number}:看起来像字母的数字,例如罗马数字。
    • \p{No}\p{Other_Number}:上标或下标数字,或非数字 0-9 的数字(表意文字中的数字除外)。
  • \p{P}\p{Punctuation}: 任何类型的标点符号。
    • \p{Pd}\p{Dash_Punctuation}:任何类型的连字符或破折号。
    • \p{Ps}\p{Open_Punctuation}:任何类型的左括号。
    • \p{Pe}\p{Close_Punctuation}: 任何类型的结束括号。
    • \p{Pi}\p{Initial_Punctuation}:任何类型的开场白。
    • \p{Pf}\p{Final_Punctuation}:任何类型的结束语。
    • \p{Pc}\p{Connector_Punctuation}: 一个标点符号,例如连接单词的下划线。
    • \p{Po}\p{Other_Punctuation}:任何类型的标点符号,不是破折号、括号、引号或连接符。
  • \p{C}\p{Other}: 不可见的控制字符和未使用的代码点。
    • \p{Cc}\p{Control}:ASCII 或 Latin-1 控制字符:0x00–0x1F 和 0x7F–0x9F。
    • \p{Cf}\p{Format}: 不可见的格式指示符。
    • \p{Co}\p{Private_Use}:保留供私人使用的任何代码点。
    • \p{Cs}\p{Surrogate}:UTF-16 编码的代理对的一半。
    • \p{Cn}\p{Unassigned}:任何未分配字符的代码点。