4. 在 RefCOCO + 评估中 , CPT-Blk 在 shot 数为 16 时比微调表现略差 。 原因是 RefCOCO + 有更多的基于颜色的表达(比如穿红色衬衫、戴蓝色帽子的人) , 这会干扰基于颜色的 CPT 。 然而 , 这个问题可以通过在全监督场景中使用更多的微调实例来缓解 , 在这种场景中 , 模型能够学习如何更好地区分查询文本和 promp 模板中的颜色 。
5. 在全监督的设置下 , CPT 实现了与强微调 VL-PTM 相当的性能 。 这表明 , 即使在全监督的场景中 , CPT 也是 VL-PTM 的一种有竞争力的调优方法 。
综上所述 , 与普通的微调方法相比 , CPT 在 zero-shot、few-shot 和全监督的视觉定位任务中都实现了与之相当或更优越、更稳定的性能 。
更多细节请参见论文 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
