文章链接:https://arxiv.org/pdf/1906.07510.pdf

TL;DR

这是一篇关于NLP中如何利用GCN进行关系抽取的文章,主要是用到了Dependency tree构图,然后在GCN模型中增加了注意力机制,不像Dependency tree中剪枝方法容易消去相关的特征。

Dataset/Algorithm/Model/Experiment Detail

首先看看entity之间的dependency tree,对于上面的标记并不是很了解。

假设我们懂了dependency tree是如何构造了,那么就可以将这个tree看成一个图结构,有图了自然就可以使用GCN来提取特征。以前的方法都是基于某种规则剪枝,本文使用全图作为输入,用模型自动提取特征,这样就不会丢失相关信息了。文章模型的主要pipeline如下所示:

模型由多个block构成,每个block包含三个module:

  • Attention Guided Layer.

A~(t)=softmax(QWiQ×(KWiK)Td)\tilde{\mathbf{A}}^{(\mathrm{t})}=\operatorname{softmax}\left(\frac{Q \mathbf{W}_{i}^{Q} \times\left(K \mathbf{W}_{i}^{K}\right)^{T}}{\sqrt{d}}\right)

这个计算公式就是Multi-head attention. 这需要再看下原文要不然看不懂。参考论文

  • Densely Connected Layer.
    主要是在GCN layer之间加入了densely connection。
  • Linear Combination Layer.
    将多个注意力下的结果结合在一起然后分类。

Experiment Detail

Thoughts

由于以前涉及的NLP知识较少,因此有些地方看得并不是很明白,也不太熟悉数据,所以不能妄加评论。

联系作者