我最近才开始对机器学习产生兴趣,我有一个特别的问题想开始探索。
我想训练一个系统根据字符串中的内容自动分类项目的各种属性。
假设我有一长串各种共同基金,例如:
Ticker Fund Name
------ ---------
ABNAX ABC Bond Fund, Inc: Bond Inflation Strategy
ALYSX ABC Bond Fund, Inc: Credit Long/Short Portfolio; Advisor Class
AGRXX DEF Bond Fund, Inc: Government Reserves Portfolio; Class 1 Shares
HIYYX FGH Bond Fund, Inc: High Yield Portfolio; Advisor Class Shares
HIYAX FGH Bond Fund, Inc: High Yield Portfolio; Class A Shares
...
… 等等。
我有一个包含“完整”分类的大型数据集,其中的基金名称与上述类似,而且——此外——人类已经为训练集项目赋予了某些属性。例如:
AIISX Allianz Funds Multi-Strategy Trust: AllianzGI International Small-Cap Fund; Class R6 Shares
这将具有相关的属性:
Strategy: Multi-Strategy
Geography: International
Capitalization: Small-Cap
Share class: R6
机器学习系统面临的挑战将是当有值在同一属性上“竞争”时,为属性分配正确的值。假设某个基金可以同时拥有Strategy: Long-Short
和Strategy: High Yield
——并且这两个术语都出现在基金名称中。系统应该根据训练数据集中存在的历史偏差来选择正确的。
问题
我有兴趣了解哪些机器学习方法和算法能够“学习”如何根据大量具有人类分类属性的示例对项目进行分类,如上所述。
我是机器学习的完全初学者,除了一些基本的统计知识外,所以我只想指出一个大致的方向。
这可以/应该通过多元回归之类的方法来完成,还是我们正在寻找其他东西?是否需要某种自然语言处理——或者基本的关键字模式识别就足够了吗?
最后,哪个术语或标记的专业领域可以总结这个问题描述?