统计算法开发人员候选人有哪些好的面试问题?

机器算法验证 机器学习 可能性 分布
2022-02-06 13:29:21

我正在采访统计/机器学习/数据挖掘领域的算法开发人员/研究员职位。

我正在寻找要问的问题,以确定候选人对基础理论的熟悉程度、理解程度和流动性,例如期望和方差的基​​本属性、一些常见的分布等。

我目前的首选问题是:“我们想要估计一个未知数量为此,我们有估计器给定,它们都是无偏且独立的,并且每个都有" _ _XY1,Y2,,YnXσi2Y=f(Y1,,Yn)

我希望任何认真的候选人都能轻松地处理它(给定一些时间来计算),但令我惊讶的是,有多少本应来自相关领域的候选人甚至没有取得最小的进展。因此,我认为这是一个很好的、具有歧视性的问题。这个问题的唯一问题是它只有一个。

还有什么其他问题可以用来解决这个问题?或者,我在哪里可以找到这些问题的集合?

1个回答

您希望您的统计开发人员做什么?

美国陆军说“训练你会战斗,因为你会像受过训练一样战斗”。根据您希望他们整天做什么来测试他们。真的,您希望他们为公司“创造价值”或“赚钱”。

老板101

想想“给我钱”。

  • 钱生长在称为雇员的树上。你投入一个“一角钱”(他们的工资),他们付给你一个“四分之一”(他们的价值)。
  • 如果你不能将他们的工作与他们如何为公司赚钱联系起来,那么你和他们都没有正确地完成他们的工作。

注意:如果您的符号操作问题没有完全与“钱”相关联,那么您可能问错了问题。

作为一名员工,每个员工都必须做三件事:

  • 实际上能够胜任这项工作
  • 与团队合作
  • 愿意/有动力去实际做这项工作

如果您没有将这些牢记于心,那么没有其他答案会对您有任何好处。

如果你可以用一个好的软件或一个训练有素的青少年来代替它们,那么你最终将不得不这样做,而且你会付出代价。

资料 101

他们应该能够做什么:

  • 使用您内部的软件风格(网络、操作系统、办公、演示和分析)
  • 使用一些行业标准的软件风格(Excel、R、JMP、MatLab、 pick_three
  • 自己获取数据。他们应该知道基本任务的基本数据集。他们应该知道存储库。他们应该知道哪些著名的数据用于哪个任务。费舍尔鸢尾花。皮尔逊蟹。...这里可能有 20 个元素。UCI、NIST、NOAA。
  • 他们应该知道处理数据的规则。二进制数据 (T/F) 的信息内容与分类数据 (A、B、C、D) 或连续数据非常不同。按数据类型正确处理数据很重要。
  • 一些基本的统计任务包括:这两个相同还是不同(又名聚类/分类),这与它有什么关系
    (回归/拟合,包括线性模型、glm、径向基、
    差分方程),“x “(假设检验),我需要多少样本(验收抽样),我如何
    从少数/便宜/有效的实验中获得最多的数据(实验的统计设计
    ) -免责声明,我是工程师而不是统计学家 你可能会问他们问题是“有哪些不同的基本任务,您如何测试统计学家能否有效和正确地完成这些任务?
  • 自己访问/使用数据。这是关于格式和工具的。
    他们应该能够读取 csv、xlsx (excel)、SQL 和
    图片。(HDF5,Rdata)如果您有自定义格式,他们应该
    能够阅读并快速
    有效地使用工具。他们应该知道格式的优势/劣势。CSV 使用快速,一直存在,原型快速,但臃肿、低效且运行缓慢。
  • 正确处理数据,使用最佳实践,不犯罪。永远不要丢弃数据。不要用实线拟合二项式数据。不要违抗物理。
  • 得出可重复和可重现的结果。有些
    人说“有谎言,该死的谎言和统计数据”,但在我的
    公司却没有。同样好的输入给出同样好的输出。输出不是数字,它始终是通知
    技术行动并产生业务结果的业务决策。不同的测试可能会将表盘设置为 5.5 或 6.5,但性能始终高于 1.33。

  • 以决策者和/或小型开发人员和/或他们自己在一年内可以
    理解的语言和水平呈现发现,并且错误最少。一件美好的事情是能够解释它,这样你的祖母就会明白。这个(链接)是我的答案,但我喜欢它。

分析 zingers:

我认为不可能的问题很棒。他们不可能是有原因的。能够知道某事是否不可能走出大门是一件好事。知道为什么,有一些参与的方式,或者能够提出不同的问题会更好。

其他简历问题。链接)在reddit上。(链接) 其他 (链接)

顺便说一句:这是一个很好的问题。随着时间的推移,我可能不得不更新这个答案。