数据挖掘 - 基于字符串内容的机器学习识别和分类：一般建议 - 吾爱随笔录

我最近才开始对机器学习产生兴趣，我有一个特别的问题想开始探索。

我想训练一个系统根据字符串中的内容自动分类项目的各种属性。

假设我有一长串各种共同基金，例如：

Ticker  Fund Name
------  ---------
ABNAX   ABC Bond Fund, Inc: Bond Inflation Strategy
ALYSX   ABC Bond Fund, Inc: Credit Long/Short Portfolio; Advisor Class
AGRXX   DEF Bond Fund, Inc: Government Reserves Portfolio; Class 1 Shares
HIYYX   FGH Bond Fund, Inc: High Yield Portfolio; Advisor Class Shares
HIYAX   FGH Bond Fund, Inc: High Yield Portfolio; Class A Shares
...

… 等等。

我有一个包含“完整”分类的大型数据集，其中的基金名称与上述类似，而且——此外——人类已经为训练集项目赋予了某些属性。例如：

AIISX   Allianz Funds Multi-Strategy Trust: AllianzGI International Small-Cap Fund; Class R6 Shares

这将具有相关的属性：

Strategy: Multi-Strategy
Geography: International
Capitalization: Small-Cap
Share class: R6

机器学习系统面临的挑战将是当有值在同一属性上“竞争”时，为属性分配正确的值。假设某个基金可以同时拥有Strategy: Long-Short和Strategy: High Yield——并且这两个术语都出现在基金名称中。系统应该根据训练数据集中存在的历史偏差来选择正确的。

问题

我有兴趣了解哪些机器学习方法和算法能够“学习”如何根据大量具有人类分类属性的示例对项目进行分类，如上所述。

我是机器学习的完全初学者，除了一些基本的统计知识外，所以我只想指出一个大致的方向。

这可以/应该通过多元回归之类的方法来完成，还是我们正在寻找其他东西？是否需要某种自然语言处理——或者基本的关键字模式识别就足够了吗？

最后，哪个术语或标记的专业领域可以总结这个问题描述？