从字符串中删除非字母数字字符

IT技术 javascript regex
2021-02-01 11:36:43

我想将以下字符串转换为提供的输出。

Input:  "\\test\red\bob\fred\new"
Output: "testredbobfrednew"

我还没有发现,将处理特殊字符,如任何解决方案\r\n\b,等。

基本上我只想摆脱任何不是字母数字的东西。这是我尝试过的...

Attempt 1: "\\test\red\bob\fred\new".replace(/[_\W]+/g, "");
Output 1:  "testedobredew"

Attempt 2: "\\test\red\bob\fred\new".replace(/['`~!@#$%^&*()_|+-=?;:'",.<>\{\}\[\]\\\/]/gi, "");
Output 2:  "testedobred [newline] ew"

Attempt 3: "\\test\red\bob\fred\new".replace(/[^a-zA-Z0-9]/, "");
Output 3:  "testedobred [newline] ew"

Attempt 4: "\\test\red\bob\fred\new".replace(/[^a-z0-9\s]/gi, '');
Output 4:  "testedobred [newline] ew"

另一种具有多个步骤的尝试

function cleanID(id) {
    id = id.toUpperCase();
    id = id.replace( /\t/ , "T");
    id = id.replace( /\n/ , "N");
    id = id.replace( /\r/ , "R");
    id = id.replace( /\b/ , "B");
    id = id.replace( /\f/ , "F");
    return id.replace( /[^a-zA-Z0-9]/ , "");
}

有结果

Attempt 1: cleanID("\\test\red\bob\fred\new");
Output 1: "BTESTREDOBFREDNEW"

任何帮助,将不胜感激。

工作解决方案:

Final Attempt 1: return JSON.stringify("\\test\red\bob\fred\new").replace( /\W/g , '');
Output 1: "testredbobfrednew"
6个回答

删除非字母数字字符

以下是从输入字符串中去除非字母数字字符的正确正则表达式:

input.replace(/\W/g, '')

请注意,\W这相当于[^0-9a-zA-Z_]- 它包括下划线字符。要删除下划线,请使用例如:

input.replace(/[^0-9a-z]/gi, '')

输入格式错误

由于测试字符串包含各种非字母数字的转义字符,因此它将删除它们。

如果要从字面上理解,字符串中的反斜杠需要转义:

"\\test\\red\\bob\\fred\\new".replace(/\W/g, '')
"testredbobfrednew" // output

处理格式错误的字符串

如果您无法正确转义输入字符串(为什么不呢?),或者它来自某种不受信任/配置错误的源 - 您可以执行以下操作:

JSON.stringify("\\test\red\bob\fred\new").replace(/\W/g, '')
"testredbobfrednew" // output

请注意,字符串的 json 表示包括引号:

JSON.stringify("\\test\red\bob\fred\new")
""\\test\red\bob\fred\new""

但它们也被替换正则表达式删除。

@kylex,那是因为下划线被认为是字母数字串的一部分,出于某种原因
2021-03-17 11:36:43
这不会删除下划线。
2021-03-18 11:36:43
“因为它们是变量标识符中通常合法的字符。” . 问题中没有“_”,当然替换\W[_\W](在问题中使用)或类似的会删除下划线。
2021-03-25 11:36:43
@AD7six,当字符串来自不受信任的来源时,您能否详细说明为什么应该使用 JSON.stringify() ?不这样做有什么安全问题吗?谢谢!
2021-03-28 11:36:43
@guithor 这不是“一个人应该”,或者它根本影响安全;如果正在接收“某个字符串”,并且无论出于何种原因,它基本上都被打断了(从为什么接收到的字符串格式不正确的问题中看不出来) - 它允许查看字符串的内容:jsfiddle.net/Z6N7C
2021-04-02 11:36:43

所有当前的答案仍然有怪癖,我能想到的最好的事情是:

string.replace(/[^A-Za-z0-9]/g, '');

这是一个捕获我可以在键盘上找到的每个键的示例:

var string = '123abcABC-_*(!@#$%^&*()_-={}[]:\"<>,.?/~`';
var stripped = string.replace(/[^A-Za-z0-9]/g, '');
console.log(stripped);

输出:'123abcABC'。

' & ' 变成 '---' 在 mo'。有没有办法建立那个签入,所以它只有一个连字符用于多个相邻的替换?
2021-03-16 11:36:43
input.replace(/\W/g, '')_字符串中留下@Deminetix 是正确的,string.replace(/[^A-Za-z0-9]/g, '');因为它从字符串中删除了所有非字母数字字符。
2021-03-22 11:36:43
然而,这个答案的排列实际上并没有回答所提出的问题
2021-03-24 11:36:43

问题不在于您如何替换字符,而在于您如何输入字符串。

这是只有在输入这是一个反斜杠字符的第一个反斜杠,其他都是控制字符的一部分\r\b\f\n

由于这些反斜杠不是单独的字符,而是编写单个控制字符的符号的一部分,因此不能单独删除它们。即您不能从中删除反斜杠,\n因为它不是两个单独的字符,这是您编写控制字符LF换行符的方式

如果您真的想将该输入转换为所需的输出,则需要将每个控制字符替换为相应的字母,例如\n,将字符替换为字符n

要替换控制字符,您需要使用像[\r], as\r在正则表达式中具有特殊含义的字符集

var input = "\\test\red\bob\fred\new";

var output = input
    .replace(/[\r]/g, 'r')
    .replace(/[\b]/g, 'b')
    .replace(/[\f]/g, 'f')
    .replace(/[\n]/g, 'n')
    .replace(/\\/g, '');

演示:http : //jsfiddle.net/SAp4W/

@BobbyCannon:我添加了可以获取您的确切输入并生成所需输出的代码。
2021-03-14 11:36:43
我理解你所说的一切,但问题仍然存在,而且还没有人提出正确的答案。输入可以是更改,但没有人建议如何在 JS 中以编程方式更改它。
2021-04-02 11:36:43

你可以试试这个正则表达式:

value.replace(/[\W_]/g, '');
你的救生员<3 mwah!!
2021-03-17 11:36:43

要包括阿拉伯字母和英文字母,您可以使用:

// Output: نصعربي
"ن$%^&*(ص ع___ربي".replace(/[^0-9a-z\u0600-\u06FF]/gi, '');
您能否详细说明包含代码点以及为什么会这样?它可能有用更完整
2021-03-16 11:36:43