结构
整体结构如下:

encoder
- text encoder 用的bert-base uncased抽特征
- video encoder 抽取S3D特征,之后也用bert抽特征
- cross encoder 把上述两个模块的特征,拼接后再送入bert抽一次特征,$Cat(\mathbb{R}^{m \times d}, \mathbb{R}^{n \times d}) = \mathbb{R}^{(m+n) \times d}$
decoder
用T5或者BART,也就是下图的prefix LM在,输入$\mathbb{R}^{(m+n) \times d})$,输出$\mathbb{R}^{l \times d}$。

任务
- Video-Text Joint
为了使得相邻的具有相同语义信息的word token特征和image frame特征,在特征空间上相近,使用MIL-NCE loss。MIL-NCE loss的核心思想是构建视频帧-文本对,并衡量两种模态在特征空间上的乘积,使用NCE(噪声对比估计)计算loss。视频帧和文本匹配为正样本,否则为负样本。

- CMLM: Conditioned Masked Language Model
类似MLM,mask掉文本的一部分,用剩余文本和全部视频信息预测被mask掉的文本。

- CMFM: Conditioned Masked Frame Model
想法和CMLM类似,但是恢复图像信息比恢复文本信息难太多,改成用MIL-NCE,构建正负样本对。正样本是被mask掉的视频帧特征,负样本是此帧附近的视频帧特征。

- Video-Text Alignment
分类任务,判断视频-文本对是否匹配,正负样本自行构建。

- Language Reconstruct
生成任务,输入为一直视频、被mask掉的文本,以自回归的方式按顺序恢复被mask掉的文本,从而输出完整文本。
