数据科学家的工作有多少数据争论?

数据挖掘 数据争吵
2021-09-14 20:36:50

我目前在一家大公司担任数据科学家(我的第一份工作是 DS,所以这个问题可能是我缺乏经验的结果)。他们积压了大量非常重要的数据科学项目,如果实施这些项目将会产生巨大的积极影响。但。

公司内部不存在数据管道,标准程序是让他们在我需要一些信息时向我提供千兆字节的TXT 文件。将这些文件视为以神秘符号和结构存储的事务的表格日志。没有完整的信息包含在一个数据源中,出于“安全原因”,他们无法授予我访问其 ERP 数据库的权限。

最简单项目的初始数据分析需要残酷的、令人痛苦的数据争论。一个项目超过 80% 的时间是我试图解析这些文件跨数据源以构建可行的数据集。这不是简单地处理丢失数据或对其进行预处理的问题,而是关于构建可以首先处理的数据所需的工作可由 dba 或数据工程解决,而不是数据科学?)。


1)感觉大部分工作都与数据科学无关。这是准确的吗?

2) 我知道这不是一家拥有高级数据工程部门的数据驱动型公司,但我认为,为了构建数据科学项目的可持续未来,需要最低级别的数据可访问性我错了吗?

3)这种类型的设置对于具有严重数据科学需求的公司来说是否常见?

4个回答

许多博客、公司和论文都承认这种情况在很多情况下是真实存在的。

在这篇论文Data Wrangling for Big Data: Challenges and Opportunities中,有一段关于它的引述

数据科学家花费 50% 到 80% 的时间

收集和准备不规则的数字数据。

此外,您还可以阅读《纽约时报》这篇文章中引用的来源,对于大数据科学家来说,“看门人工作”是获得洞察力的关键障碍

不幸的是,现实世界不像 Kaggle。您不会获得 CSV 或 Excel 文件,只需稍加清理即可开始数据探索。您需要以不适合您需要的格式查找数据。

您可以做的是尽可能多地利用旧数据,并尝试在您(或未来的同事)更容易使用的过程中调整新数据的存储。

  1. 感觉大部分工作都与数据科学无关。这是准确的吗?

    是的

  2. 我知道这不是一家拥有高级数据工程部门的数据驱动型公司,但我认为数据科学需要最低级别的数据可访问性。我错了吗?

    你没有错,但这就是现实生活中的现实。

  3. 对于具有严重数据科学需求的公司来说,这种设置是否常见?

    是的

从技术角度来看,您需要研究可以让您的生活更轻松的 ETL 解决方案。有时,一种工具读取某些数据的速度可能比另一种工具快得多。例如,R 的 readxl 在读取 xlsx 文件时比 python 的 pandas 快几个数量级;您可以使用 R 导入文件,然后将它们保存为 Python 友好的格式(镶木地板、SQL 等)。我知道您不是在处理 xlsx 文件,而且我不知道您是否使用 Python - 这只是一个示例。

从实际的角度来看,有两点:

  • 首先,了解什么是技术上可行的。在许多情况下,告诉您知道的人是不了解 IT 的人,他们担心业务或合规性考虑,但不知道从 IT 的角度来看什么是可行的,什么是不可行的。尝试与 DBA 或任何管理数据基础架构的人交谈。了解什么是技术上可行的。然后,只有到那时,尝试找到妥协。例如,他们不会让您访问他们的系统,但我认为它背后有一个数据库?也许他们可以将数据提取为其他格式?也许他们可以提取定义数据类型等的 SQL 语句?

  • 如果您能证明这样做符合他们的利益,商界人士就更有可能帮助您。如果他们甚至不相信你在做什么,那么倒霉...

感觉大部分工作都与数据科学无关。这是准确的吗?

这是任何数据科学项目的现实。Google 对其进行了实际测量并发表了一篇论文《机器学习系统中的隐藏技术债务》https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

在此处输入图像描述

论文的结果也反映了我的经验。绝大多数时间都花在获取、清理和处理数据上。

  1. 感觉大部分工作都与数据科学无关。这是准确的吗?

    数据科学家的职位描述中最肯定的是争论数据。在某种程度上,您必须了解数据生成过程才能使用它来驱动解决方案。当然,专门从事 ETL 的人可以更快/更高效地完成此任务,但在现实世界中获得数据转储并不少见。如果您不喜欢数据科学的这一方面,则可能有机会与 IT 资源更紧密地合作,以将数据正确地来源到您有权访问的仓库中。或者,您可以找到一份已经有更好顺序的数据的工作。

  2. 我知道这不是一家拥有高级数据工程部门的数据驱动型公司,但我认为数据科学需要最低级别的数据可访问性。我错了吗?

    我认为最低级别是txt文件。如果您可以通过文本文件访问数据,那么您应该可以访问数据库中的数据(与上级协商)。

  3. 对于具有严重数据科学需求的公司来说,这种设置是否常见?

    是的。你是数据科学家;你是专家。教育他人了解当前数据结构的低效率以及如何提供帮助是您工作的一部分。不可用的数据对任何人都没有帮助。您有机会让事情变得更好并塑造公司的未来。