>
但对于多模态语义对齐,我们需要同时考虑特征内容和关系结构,因此我采用了FGW,它结合了经典OT的内容传输和GW的结构匹配。”
他说着走到讲台旁边,拉过一旁的白板,拿起笔开始边写边讲:“FGW的定义为:FGW_α(μ,ν,
C_X,
C_Y,
D)=(1-α)
OT(μ,ν,
D)+α
GW(μ,ν,
C_X,
C_Y),
其中α∈[0,1]是融合参数,D是内容成本矩阵(如||x-y||^p),C_X和C_Y是各自模态的内部相似矩阵,
在非欧几里得空间中,比如视觉嵌入的球面流形或语言的超双曲空间,我将度量泛化为Riemannian度量
......
不知道这是否能解决您的第一个问题?”
浙大老师点点头:“可以了。”
周昀点点头,将白板上的内容擦去:“好,那接下来我回答您的第二个问题。”
马克笔不断在白板上写下各种奇怪的符号,至少在一些旁听的老师和学生眼里是这样的。
“对于高维嵌入的数值稳定性,维度灾难会导致C_X和C_Y的谱不稳定,我引入了谱正则化:对相似矩阵施加核范数罚项,min
||C||*+λ||C
-
K||F^2
......
这样就能这确保了在噪声环境下,FGW的梯度下降不会发散,实验中在Image
本章未完,请点击下一页继续阅读! 第2页 / 共5页