如果不知道编码了什么数据,那么解释新的未知格式的二进制数据有多难?

逆向工程 二元分析
2021-06-25 13:00:16

这个问题基于我对世界建筑问题的回答:https : //worldbuilding.stackexchange.com/questions/30471/how-could-a-blind-alien-race-interpret-video-broadcast-into-space/ 30497?noredirect=1#comment80601_30497 其中我认为外星人无法解释数据,因为他们无法可靠地对捕获的信号进行逆向工程。我不是要任何人完整地回答这个问题,但我确实想检查我在一个领域的基本假设;此外,作为一名程序员,我现在很好奇,他一直试图想出解决挑战的方法,哈哈。

假设您收到了大量完全陌生格式的二进制数据,除了没有加密或故意混淆的事实之外,对它一无所知,并且您不知道编码了什么(视频,图片,可执行程序等),对其进行逆向工程以找出如何解释数据的可行性如何?也就是说,“破解”编码算法有多难,正确识别最初编码的数据类型有多难?

密切相关的是,通过提出看起来有效但不是数据实际编码方式的解释来获得“误报”的可能性有多大?或者甚至想出一种完全不同类型的编码数据(认为音频编码是视频等)

2个回答

假设这是您的全部随机消息:

01000001

任何熟悉ASCII 的人都能够告诉您这是字母“A”的二进制表示。但是,在您的场景中,没有上下文表明这是 ASCII,因此它很可能是汉堡包订单的以下标志的 8 位表示:

  • 0 = 没有奶酪
  • 1 = 添加泡菜
  • 0 = 无番茄酱
  • 0 = 无芥末
  • 0 = 没有洋葱
  • 0 = 没有番茄
  • 0 = 没有生菜
  • 1 = 双馅饼

如果上述情况也不是这样,则可能实际上是在多部分消息传递方案中使用的两个单独的 4 位字段。还是 5 位和 3 位紧随其后?

考虑到确定单个字节意味着什么的复杂性(假设被检查的消息实际上知道字节的概念是什么),想象一下对几千字节或更大的消息执行此操作会有多困难。

但是,您还提到,我们将获得大量数据样本以供使用。这将为分析师提供更多背景信息,例如:

  • 位中可能的模式
    • 某些位始终为 0 或始终为 1
    • 重复相同 20 位的块
  • 与其他知名格式的相似性
    • 消息可能使用帧
    • 消息中可能有可识别的页眉和页脚

上下文很重要,尽管对于误报,即使有上下文,您也可能得出错误的答案。在加密术语中,给定一个随机密文,如果您应用正确的密钥,您可以从字面上想出任何明文。同样,回到我的回答的开头,我发布的 8 位消息可以有多种解释,其中任何一种在给定的应用程序中都是有效的。

电视、无线电、微波数据传输等传输的编码发生在许多不同的层。本质上有一个协议栈。

查看传输的人可以通过多种方式推断信息。仅仅存在具有足够模式以表明存在智能生命的信号就可以传达很多信息——不仅仅是“还有其他智能生命”。仅传输量就可以说明很多,特别是如果观察了几十年。传输的时间会暗示诸如:黑夜和白天对应于不同级别和类型的活动。

从传输“堆栈”的底部开始,可以做出一些假设:在“外星人”有意义的距离内,光似乎是唯一合理的传输介质。直到大约 20 年前,来自地球的很大一部分传输是模拟的。

在最低的“协议”级别,我们将模拟信息编码到光上的方法非常简单:改变幅度、改变频率、改变相位。因此,似乎大多数能够接收电磁(光)传输的“外星人”都能够检测到我们的传输改变了这些非常基本的特性中的一两个的事实。然后他们开始解码过程。如果他们收到 AM 无线电传输,就很容易恢复我们所说的声音的原始波。假设外星人对我们的“声”波有某种反应(或者直接对原始 AM 波做出反应),他们可以“听到”信息,就像广播电台创建它的方式一样。

然后他们会遇到解释我们语言的问题,但考虑到地球上的语言学家的能力,想象这种情况发生并不困难(尽管可能需要很长时间)。

一旦他们解码了 AM 广播和我们的一些自然语言,那么解码其他东西,也许是 FM 广播,就会变得容易得多。从那里开始,解码电视信号的音频部分可能不太难。

如果外星人具有与视觉相似(或相同)的感觉并且具有相似的视觉暂留,那么解码视频将有很大帮助。分析最低级别的视频传输的人可以将几层重复拼凑在一起:扫描线每秒重复 15000 次,帧每秒重复约 30 次,帧可能是交错的。可以看到,每条扫描线通常与之前的扫描线非常相似。可以绘制一张地图,显示每条扫描线如何变形为跟随它的线。在画了几百幅之后,就会出现一个框架。此外,垂直消隐间隔将是一个线索,表明一个帧的结束和下一帧的开始。每一帧通常看起来与前一帧相似,但通常会有一些变化。这将暗示一系列随时间变化的事物的图片。换句话说,视频。伴随的音频很容易与嘴巴的运动、相互影响的事物等相关联。

随着模拟电视的解码,从字幕和电视广告中将口语与书面语言联系起来成为可能。通过看电视和听广播可以收集到大量的文化信息。我们在这些传输中关心什么样的事情会变得很清楚。

因此,当谈到解码数字传输时,大量的基础工作已经完成。例如,观看包含大量股票市场信息的电视广播将大大有助于解码有关股票市场的同期数字传输。