我正在阅读最近的论文Graph Representation Learning via Hard and Channel-Wise Attention Networks,其中作者声称图数据没有硬注意力运算符。
根据我的理解,硬注意力和软注意力之间的区别在于,对于软注意力,您要计算节点与其所有邻居之间的注意力分数,而对于硬注意力,您有一个仅选择最重要邻居的采样函数。如果是这种情况,那么GraphSage就是一个硬注意力的例子,因为它们只将注意力应用于每个节点的邻居的一个子集。
我对硬注意力和软注意力的理解是错误的,还是作者提出的主张不成立?