UniVL技术点总结

结构

整体结构如下： architecture

text encoder 用的bert-base uncased抽特征
video encoder 抽取S3D特征，之后也用bert抽特征
cross encoder 把上述两个模块的特征，拼接后再送入bert抽一次特征，$Cat(\mathbb{R}^{m \times d}, \mathbb{R}^{n \times d}) = \mathbb{R}^{(m+n) \times d}$

用T5或者BART，也就是下图的prefix LM在，输入$\mathbb{R}^{(m+n) \times d})$，输出$\mathbb{R}^{l \times d}$。

Video-Text Joint 为了使得相邻的具有相同语义信息的word token特征和image frame特征，在特征空间上相近，使用MIL-NCE loss。MIL-NCE loss的核心思想是构建视频帧-文本对，并衡量两种模态在特征空间上的乘积，使用NCE（噪声对比估计）计算loss。视频帧和文本匹配为正样本，否则为负样本。
CMLM: Conditioned Masked Language Model 类似MLM，mask掉文本的一部分，用剩余文本和全部视频信息预测被mask掉的文本。
CMFM: Conditioned Masked Frame Model 想法和CMLM类似，但是恢复图像信息比恢复文本信息难太多，改成用MIL-NCE，构建正负样本对。正样本是被mask掉的视频帧特征，负样本是此帧附近的视频帧特征。
Video-Text Alignment 分类任务，判断视频-文本对是否匹配，正负样本自行构建。
Language Reconstruct 生成任务，输入为一直视频、被mask掉的文本，以自回归的方式按顺序恢复被mask掉的文本，从而输出完整文本。