我正在尝试在机器学习中进行一个相当简单的练习,并尝试将文本样本分类为明文或密文(加密)。
以下是两个示例:
- 纯文本:
This is a sentence in plaintext which any human person can read - 密文:
5oXbLiEZbMUgOOdYy+q4+rsDaqUngBrrUbpVeuu2ggvP6hHObC4GgTLhq
使用的特定加密没有任何我可以用来分类的特殊属性(例如,不能保证密文比明文长得多),所以任务就是弄清楚哪些文本与随机字符无法区分,并且什么文本是可读的明文。
我目前的启发式方法涉及计算空格并假设任何具有高于某个阈值的空格比率都是明文,但我正在尝试找到一个更好的鲁棒算法。