UniVL技术点总结

参考链接 论文链接

结构

整体结构如下: architecture

encoder

  1. text encoder 用的bert-base uncased抽特征
  2. video encoder 抽取S3D特征,之后也用bert抽特征
  3. cross encoder 把上述两个模块的特征,拼接后再送入bert抽一次特征,$Cat(\mathbb{R}^{m \times d}, \mathbb{R}^{n \times d}) = \mathbb{R}^{(m+n) \times d}$

decoder

用T5或者BART,也就是下图的prefix LM在,输入$\mathbb{R}^{(m+n) \times d})$,输出$\mathbb{R}^{l \times d}$。 T5

任务

  1. Video-Text Joint 为了使得相邻的具有相同语义信息的word token特征和image frame特征,在特征空间上相近,使用MIL-NCE loss。MIL-NCE loss的核心思想是构建视频帧-文本对,并衡量两种模态在特征空间上的乘积,使用NCE(噪声对比估计)计算loss。视频帧和文本匹配为正样本,否则为负样本。 1
  2. CMLM: Conditioned Masked Language Model 类似MLM,mask掉文本的一部分,用剩余文本和全部视频信息预测被mask掉的文本。 2
  3. CMFM: Conditioned Masked Frame Model 想法和CMLM类似,但是恢复图像信息比恢复文本信息难太多,改成用MIL-NCE,构建正负样本对。正样本是被mask掉的视频帧特征,负样本是此帧附近的视频帧特征。 3
  4. Video-Text Alignment 分类任务,判断视频-文本对是否匹配,正负样本自行构建。 4
  5. Language Reconstruct 生成任务,输入为一直视频、被mask掉的文本,以自回归的方式按顺序恢复被mask掉的文本,从而输出完整文本。 5
updatedupdated2022-02-232022-02-23