我目前在一家大公司担任数据科学家(我的第一份工作是 DS,所以这个问题可能是我缺乏经验的结果)。他们积压了大量非常重要的数据科学项目,如果实施这些项目将会产生巨大的积极影响。但。
公司内部不存在数据管道,标准程序是让他们在我需要一些信息时向我提供千兆字节的TXT 文件。将这些文件视为以神秘符号和结构存储的事务的表格日志。没有完整的信息包含在一个数据源中,出于“安全原因”,他们无法授予我访问其 ERP 数据库的权限。
最简单项目的初始数据分析需要残酷的、令人痛苦的数据争论。一个项目超过 80% 的时间是我试图解析这些文件和跨数据源以构建可行的数据集。这不是简单地处理丢失数据或对其进行预处理的问题,而是关于构建可以首先处理的数据所需的工作(可由 dba 或数据工程解决,而不是数据科学?)。
1)感觉大部分工作都与数据科学无关。这是准确的吗?
2) 我知道这不是一家拥有高级数据工程部门的数据驱动型公司,但我认为,为了构建数据科学项目的可持续未来,需要最低级别的数据可访问性。我错了吗?
3)这种类型的设置对于具有严重数据科学需求的公司来说是否常见?