这些术语的含义差异:数据集与语料库

机器算法验证 机器学习 数据集 术语 定义
2022-03-14 16:06:39

我有一个关于我找不到答案的术语定义的问题。

数据集和语料库有什么区别?

我已经看到它们几乎可以互换使用。我的理解是语料库(意思是集合)更广泛,数据集更具体(在大小、特征等方面)。

请让我知道你在想什么。如果这不是这个问题的正确论坛,我提前道歉。我有疑问的原因是因为我和我的顾问对什么最适合我们题为“从多媒体语料库/数据集中提取 XX 的技术”的论文感到困惑

2个回答

我认为“语料库”主要出现在与文本/文档相关的 NLP 领域或应用领域,因为它的含义是“书面文本的集合,尤其是特定作者的全部作品或特定主题的写作主体”。https://www.google.com/search?q=define+corpus

相反,数据集出现在每个应用程序域中——任何类型的数据的集合都是一个数据集。

更新:请查看此网页,据说

“语料库是大量文本的集合。它是语言分析所依据的书面或口头材料的主体。”

我将在定性研究领域发表一篇文章:“数据语料库是指为特定研究项目收集的所有数据,而数据集是指语料库中用于特定分析的所有数据。” 参见 Braun, Virginia 和 Clarke, Victoria (2006) 在心理学中使用主题分析。心理学定性研究,3 (2)。第 77-101 页。ISSN 1478-0887