实验室老板定的课题,就是给定整篇维基百科的文章生成里面副标题,为了简化问题只需要生成第一级的副标题,因为老板给的方向比较坑,基本找不到这方面的论文或模型,所以我现在主要参照的是文本摘要模型,因为现在我看到的的文本摘要模型都是 seq2seq 的,所以我现在正在尝试用 seq2seq+attention 实现,输入整篇文章,输出的是所有副标题连在一起的句子。但是这样的结果并不太好,我想请问各位大佬能不能使 decode 输出一个二维数组,我现在是在谷歌的 textsum 的基础上改模型,看了 decode 的部分感觉无从下手啊。我也想过使用 cnn 或者 rnn 实现,但是文本处理方面基本都是用这些实现文本分类,输出的标签都是 one-hot 的,感觉不是很适合这种文本生成问题。
训练数据的格式是这样的
求各位大佬指条路
JH_L_XY,2018-6-6 12:38:34