我有一个关于我找不到答案的术语定义的问题。
数据集和语料库有什么区别?
我已经看到它们几乎可以互换使用。我的理解是语料库(意思是集合)更广泛,数据集更具体(在大小、特征等方面)。
请让我知道你在想什么。如果这不是这个问题的正确论坛,我提前道歉。我有疑问的原因是因为我和我的顾问对什么最适合我们题为“从多媒体语料库/数据集中提取 XX 的技术”的论文感到困惑
我有一个关于我找不到答案的术语定义的问题。
数据集和语料库有什么区别?
我已经看到它们几乎可以互换使用。我的理解是语料库(意思是集合)更广泛,数据集更具体(在大小、特征等方面)。
请让我知道你在想什么。如果这不是这个问题的正确论坛,我提前道歉。我有疑问的原因是因为我和我的顾问对什么最适合我们题为“从多媒体语料库/数据集中提取 XX 的技术”的论文感到困惑
我认为“语料库”主要出现在与文本/文档相关的 NLP 领域或应用领域,因为它的含义是“书面文本的集合,尤其是特定作者的全部作品或特定主题的写作主体”。(https://www.google.com/search?q=define+corpus)
相反,数据集出现在每个应用程序域中——任何类型的数据的集合都是一个数据集。
更新:请查看此网页,据说
“语料库是大量文本的集合。它是语言分析所依据的书面或口头材料的主体。”
我将在定性研究领域发表一篇文章:“数据语料库是指为特定研究项目收集的所有数据,而数据集是指语料库中用于特定分析的所有数据。” 参见 Braun, Virginia 和 Clarke, Victoria (2006) 在心理学中使用主题分析。心理学定性研究,3 (2)。第 77-101 页。ISSN 1478-0887