是否有任何正在进行的 AI 项目使用 Stack Exchange 进行机器学习?
是否有任何正在进行的项目使用 Stack Exchange 进行机器学习?
人工智能
机器学习
人工智能设计
2021-11-06 19:55:40
2个回答
当然似乎有一些研究项目涉及某种形式的文本挖掘/信息检索/等。和 StackExchange 站点。
我可以通过谷歌/谷歌学者找到一些例子(不太可能接近详尽的列表):
- TACIT:一种开源文本分析、抓取和解释工具,描述了各种网站(包括 Stack Exchange 网站,还有 Twitter、Reddit 等)的大量文本抓取工具。乍一看,这似乎主要是关于爬网,而不是事后对数据做任何其他事情。在 Google Scholar 上搜索引用该论文的其他论文可能会产生有趣的结果,但可能会导致论文使用该论文进行爬网,然后对数据进行更多处理。
- Chaff from the Wheat : Characterization and Modeling of Deleted Questions on Stack Overflow在某种意义上描述了对 Stack Overflow 问题质量的研究(特别是预测问题是否会被删除)。我不能 100% 确定这是否也是你感兴趣的东西;它是问题标题所暗示的 Stack Exchange + 机器学习,但不一定是关于保留问题文本所暗示的答案中的信息。
- 文本挖掘 stackoverflow:对计算机科学学习者面临的挑战和与主题相关的困难的洞察还描述了 StackOverflow 问题和答案中的文本挖掘,尽管乍一看它似乎主要是关于主题检测等,不一定是关于自动问题例如回答。
- 基于文本的自动问答系统的不同方面似乎是关于自动问答研究主题的一项相对较新的调查。Stack Exchange 作为此类系统的数据源示例多次被提及,但似乎并未用于其他用途。
- 使用 StackOverflow中的知识扩展 PythonQA专门用于将 StackOverflow 中的问题和答案整合到自动化问答系统中,以解决有关 Python 编程语言的问题。该论文提供了一个指向更多详细信息的链接 ( http://pythonqas2.epl.di.uminho.pt ),但该链接似乎已关闭。我想如果您对这方面的更多信息感兴趣,您可以随时尝试直接联系作者。
更一般地说,自动问答系统似乎仍然是一个相当活跃的研究领域,而不是一个微不足道/“已解决”的问题。StackExchange 可以是此类系统的一种数据来源,但也有许多其他数据来源(维基百科、Quora 等)。
DuckDuckGo从 StackExchange 学习技术问题的答案。在 DuckDuckGo 中输入诸如“正在进行的项目使用 stackexchange”之类的技术问题,它将在右侧提供突出显示的答案摘要。鸭子有一个开放的 API,可用于更多(100 多个)问答数据源。或者你可以直接去stackexchange api。
项目可以使用来自 SE 开放 API 的数据,只要它们遵守其TOU即可。基本上只要确保您的用户能够分辨出数据来自 Stack Exchange。版权许可也可能会限制您更改文本内容的能力,例如学习抽象摘要器。也许这就是 Duck.com 只突出关键字的原因。
数据权利法不断变化,尤其是涉及到您提交到网站的数据以及从该数据派生的机器学习模型时。新的欧洲数据和隐私规则使您能够下载或删除您提交到堆栈交换等站点的所有数据。
其它你可能感兴趣的问题