在大学以外进入数据科学和 NLP

数据挖掘 初学者
2022-02-19 09:43:08

我快40岁了。

四个月前,我从工作压力大的工作中辞职休息,改变了我的照顾者方向。我花了一些时间才明白自己想做什么,然后我才开始通过 Coursera 和 Kaggle 学习 NLP 和机器学习。为了学习新技能并在未来的工作面试中展示最少的作品集,我开始从事一个小型 NLP 项目。它涉及多个问题,例如从 Web 中抓取数据、清理数据、从非结构化文本中提取结构化数据、基于文档相似性链接对象、词干提取、POS 标记、引理消歧等。

然而,我觉得我迷路了,经常走错方向。实际上,它开始看起来像是过去读博士,重新发明了太多的轮子。例如,上周我将我的语言的现有词干分析器从 Java 移植到 Python 只是为了实现一些事情。首先,那个不太理想但更简单的解决方案(Python 包装器)对于我的目标来说已经足够了,而且写起来肯定更快。其次,我学到了更多关于软件工程(Java 和 Python 之间的区别,从 Python 调用 Java)而不是 NLP 问题的挑战(当前的词干提取方法是什么,如何训练基于 trie 的词干分析器等) . 第三,我发现我使用的方法可能有点过时了。

我因为许多未知而感到迷茫:

  • 我不知道我参加的项目是否对我未来的职业有意义?
  • 在我的 NLP 项目中专注于我的语言是不是太受限制了?与英语相比,我的语言的 NLP 工具非常有限。谁知道什么是 uknown uknowns?

最后,我认为这归结为缺乏对我的进步和实际技能的反馈与我所需要的。到目前为止,我收到的唯一反馈来自一次工作面试,我了解到我用于项目的方法可能已经过时,不一定是行业标准。我查看了一组为 Python 中的 NLP 框架 SpaCy 做出贡献的学生的工作。他们有一个由大学教师或校长监督的项目,项目要求已由外部公司定义,他们有机会一起工作。

当您不再是学生时,如何获得这样的反馈?实习?指导?你如何独自学习这些东西?

1个回答

我也快40了。

2 年前,我决定将职业道路从工程转向“数据科学”。

尽管有多年的 Python 经验,但我认识到我不知道或不了解最新技术,甚至不了解我每天所做的事情的现代术语。

因此我建议如下:

  • 使用诸如 DataCamp 或 Data Quest 之类的 MOOC 将您现有的技能放在更正式的基础上。这将快速教会您相关术语(让您知道谷歌的内容)和相对较新的做法。

  • 读。许多很棒的书籍都可以低成本甚至免费获得,无论是 Python for Data Science 还是 Intro to Sci-kit learn。试试教程。阅读有关该主题的 Hacker News 文章。

  • 实践。Kaggle 很有趣,但我发现遵循 fast.ai 的教程更适合实际使用。最好将这些技能应用到您觉得有趣的事情上。例如,构建一个聊天机器人,它会打开你花园里的洒水器。

毕竟这一切,你会意识到每个企业都有机会练习你的技能。有些人会使用“数据科学家”这个词,但我怀疑大多数人不会。

你没有说你以前做过什么,但我怀疑如果你像我一样订阅以下数据科学定义,那么你已经在那里了。

数据科学是高级计算技能、统计和/或数学与“领域知识”的结合。

什么是领域知识?任何你非常了解的主题。您可能是医院的放射科医生或保险公司的欺诈调查员。