ICLR 2023杰出论【lùn】文奖得主分享【xiǎng】:适配任意密集预【yù】测任务的通用小样本【běn】学习【xí】器

2024-9-21 11:28:23来源:新智元

国际【jì】学习表征会议【yì】 ICLR(International Conference on Learning Representations),被公认为当前最具影响力的机器学习国际学术会【huì】议之一【yī】。

在【zài】今年的 ICLR 2023 大会上,微软亚洲研究院发表【biǎo】了在【zài】机【jī】器学习鲁棒【bàng】性、负责任的人工【gōng】智能【néng】等领域的【de】最新【xīn】研究成果。

其中,微【wēi】软亚洲研究院【yuàn】与韩国科学技术院(KAIST)在双方【fāng】学术合作框架下【xià】的【de】科【kē】研合【hé】作成果,因出色的清【qīng】晰【xī】性、洞【dòng】察力、创造【zào】力和潜在的持久影响【xiǎng】获评 ICLR 2023 杰出论文奖。


(相关资料图)

论文地【dì】址:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密集预测任【rèn】务是计算机视【shì】觉领域【yù】的一类【lèi】重要【yào】任务,如语【yǔ】义分割、深度估计【jì】、边缘检测和关键点【diǎn】检【jiǎn】测等。对于这类任务,手动标注像素【sù】级标【biāo】签面【miàn】临着难以承受【shòu】的【de】巨额成本。因此,如何从少量的标注【zhù】数据中【zhōng】学习并作出【chū】准确预【yù】测【cè】,即【jí】小样本学习,是该【gāi】领域备【bèi】受关注的课题【tí】。近年来,关于小样本学习【xí】的研究不断取得突【tū】破,尤其是【shì】一些基【jī】于元学【xué】习和对抗学习的方【fāng】法,深受学术界的关【guān】注和欢迎。

然而【ér】,现有的计算机视觉小样本学习【xí】方法一般针对特定的【de】某类任务【wù】,如分类任务或语义分割【gē】任务。它们通常在设计【jì】模型【xíng】架构和训练过程中利【lì】用特【tè】定于【yú】这【zhè】些任【rèn】务【wù】的先验【yàn】知识和假【jiǎ】设,因此不适【shì】合推广到任【rèn】意的密集预测【cè】任务。微软亚【yà】洲研究院的研究员们希望探究【jiū】一个核心【xīn】问题:是否存在一种通用【yòng】的小样本【běn】学习器,可以从【cóng】少量标记图像【xiàng】中学习任意段未【wèi】见过的密集预测任【rèn】务。

一个密集预测任务的目标是【shì】学习【xí】从输入【rù】图像到以像【xiàng】素为单位注释【shì】的标签【qiān】的映射,它可以被定【dìng】义为:

其中 H 和【hé】 W 分别是图像【xiàng】的高与宽,输入图像一般包含 RGB 三个通【tōng】道,C_Τ 表示输出通道的数【shù】目。不同【tóng】的密集预测【cè】任【rèn】务可能【néng】涉及不同【tóng】的输出通道数【shù】目【mù】和【hé】通道【dào】属性【xìng】,如语【yǔ】义分割任务的输出是【shì】多通【tōng】道二值的,而深度估计任务的【de】输【shū】出是单通道连续值的。一个通用【yòng】的小样本学习器 F,对于【yú】任何【hé】这样的任务【wù】 Τ,在给定少量【liàng】标记样本支持集 S_Τ(包含了 N 组样【yàng】本【běn】 X^i 和标注 Y^i)的情况下,可【kě】以为【wéi】未见过的查【chá】询图像 X^q 产【chǎn】生预测,即:

如果存在适配任意密集【jí】预测任务的【de】通用【yòng】小样本【běn】学习器,那【nà】么必须满足【zú】以【yǐ】下期望:

首先,它必【bì】须具【jù】备 e 统一的体系结构。该结构能够处理任意密集预测任【rèn】务,并共享【xiǎng】大多数任【rèn】务所需的参数,以便【biàn】获取可泛化的知【zhī】识,从而能以小量样【yàng】本学习任意未【wèi】见过的【de】任务。其次【cì】,学习器应【yīng】该【gāi】灵【líng】活地【dì】调【diào】整其预测机【jī】制,以解决具有各种语义的【de】未见过的任务,同时足够高【gāo】效,以防【fáng】止过度【dù】拟合。

因此,微【wēi】软【ruǎn】亚洲研究院的研究员们【men】设计【jì】并实现了小样本学习器视【shì】觉token匹配 VTM(Visual Token Matching),其【qí】可用【yòng】于任意的密【mì】集预测任务【wù】。这是首个适配所有密集预测任务的小样本学习器,VTM为计算机【jī】视觉【jiào】中密集预测任务的处理【lǐ】以及小样本学【xué】习方法【fǎ】打开了全【quán】新的思路。该工作获得了ICLR 2023 杰出论文奖

VTM 的设计灵感源于类比人类的思维过程:给定一个新任【rèn】务的少量【liàng】示例,人类可以【yǐ】根据【jù】示例之【zhī】间的相似【sì】性快速将类【lèi】似【sì】的输出分配给类似【sì】的输【shū】入【rù】,同时也可以【yǐ】根据给定的上下文灵活【huó】变【biàn】通输入【rù】和输出之【zhī】间在哪【nǎ】些【xiē】层面相似。研究员们使用基于图像块(patch)级别的非参数匹配实现【xiàn】了密集预测的类比过程【chéng】。通过训【xùn】练【liàn】,模型被启【qǐ】发出了捕【bǔ】捉图【tú】像块中相似性的能力【lì】。

给定【dìng】一个新任务的少【shǎo】量标记示例,VTM 首先【xiān】会根据给定的示例以【yǐ】及【jí】示例的标签调整其对相【xiàng】似性的理解,从示例【lì】图像块【kuài】中锁定与待预测图【tú】像【xiàng】块相似的图像块,通【tōng】过组合【hé】它们的标签来预【yù】测【cè】未见过的图【tú】像【xiàng】块的标签。

图1:VTM 的整体架构

VTM 采【cǎi】用分【fèn】层的编【biān】码器-解码【mǎ】器架构,在多个层次【cì】上实现【xiàn】了【le】基于图像块的【de】非参【cān】数【shù】匹配。它主【zhǔ】要由【yóu】四个【gè】模块组成,分别为图像编码器 f_Τ、标签编码器 g、匹【pǐ】配模块和标【biāo】签解码器 h。给定【dìng】查询图像和【hé】支持集,图像编码器首先【xiān】会【huì】独立地提取每个查询和【hé】支持图像的图像块级表达。标签编码【mǎ】器也会类似地提取每个支持【chí】标签的标记。在每个层【céng】次【cì】的标记给定后,匹配模块会【huì】执行非参数匹配,最终由标【biāo】签解码器推断出查询图像的标【biāo】签。

VTM 的【de】本【běn】质是一个元学习方【fāng】法【fǎ】。其训【xùn】练【liàn】由多个 episode 组成【chéng】,每个 episode 模拟一个小样本学习问题。VTM 训练运用到【dào】了【le】元训【xùn】练数【shù】据集 D_train,其中包含多种有标签的密集预测任【rèn】务示例。每个【gè】训练 episode 都会模拟数据集【jí】中【zhōng】特定任务 T_train 的小样本【běn】学习场景,目标是在给定【dìng】支持集的条件下,为查询图像【xiàng】产生【shēng】正确的标签【qiān】。通过多个小样本学习【xí】的经验,模【mó】型能【néng】够学习到通用的知识,以便【biàn】快速、灵活地【dì】适应新的任务。在测试【shì】时,模型需【xū】要在训【xùn】练数【shù】据集 D_train 中未包含的【de】任意任务 T_test 上进【jìn】行小【xiǎo】样本学习。

在处【chù】理【lǐ】任意任【rèn】务时【shí】,由于【yú】元训练和测试中的每个任务的【de】输出【chū】维度 C_Τ 不同,因此【cǐ】使得为所有任务【wù】设【shè】计统一【yī】的通用模型参数成为了【le】巨大挑【tiāo】战。为了提【tí】供一个简单而普适的解决方案【àn】,研究员【yuán】们将任务转【zhuǎn】换为 C_Τ 个【gè】单通道【dào】子任务,分别学习每个通道,并使用共享的模型 F 独【dú】立【lì】地对每个子任务进【jìn】行建模【mó】。

为了测试 VTM ,研究员们还【hái】特别构建了 Taskonomy 数据集的【de】一个变种,从而模【mó】拟未【wèi】见过的密【mì】集【jí】预测任务的小样【yàng】本学习。Taskonomy 包含各种标注【zhù】过的室内图像,研【yán】究员们从中【zhōng】选择了十【shí】个具有不同语【yǔ】义和输出维度【dù】的密集预【yù】测任【rèn】务,将其分【fèn】为五部分用于【yú】交叉【chā】验【yàn】证【zhèng】。在每【měi】个拆分方式中,两个任务用于小样本评估(T_test),其余【yú】八个任务用于训练(T_train)。研究员们仔细构造了分【fèn】区,使得【dé】训练和【hé】测试任务彼【bǐ】此有足够的差异【yì】,例如将边缘任务【wù】(TE,OE)分【fèn】组为测【cè】试任务,以便对新语义的任【rèn】务进【jìn】行评估。

表1:在 Taskonomy 数【shù】据【jù】集【jí】上的定量比较( Few-shot 基线在训【xùn】练了来自其【qí】他分【fèn】区的【de】任务后,在需测试的分区【qū】任务上进行了 10-shot 学习【xí】,其【qí】中完全监督【dū】的基线在每个 fold(DPT)或所有 fold(InvPT)上训练【liàn】和评估了任务【wù】)

表【biǎo】1和图2分别定量与【yǔ】定性地【dì】展示了 VTM 和两类基线模型在十个密集预测任务上的小样本学习性【xìng】能。其中【zhōng】,DPT 和【hé】 InvPT 是两种最先进的监督学【xué】习【xí】方法,DPT 可独立地针【zhēn】对每个【gè】单一任务【wù】进【jìn】行训练,而 InvPT 则可以联合训【xùn】练所有任务。由于【yú】在 VTM 之【zhī】前还没有针对通【tōng】用密集预测任务开【kāi】发【fā】的专用小样本方【fāng】法,因此【cǐ】研究员们将 VTM 与三种最【zuì】先进的小样本分割方法,即 DGPNet、HSNet 和 VAT,进行【háng】对比,并【bìng】把【bǎ】它们拓【tuò】展到处理密集预测任务的一般标签空间。VTM 在训练期【qī】间【jiān】没有访问测试任务 T_test,并且仅在测试时【shí】使用了少量(10张)的标记图像,但它却在【zài】所【suǒ】有小【xiǎo】样本基【jī】线模型中表现得【dé】最好【hǎo】,并且在许多任务中的表现都具备【bèi】与【yǔ】全监【jiān】督基【jī】线模型比较的竞【jìng】争【zhēng】力。

图2:在 Taskonomy 的十个密集【jí】预测任务【wù】中,在新【xīn】任务【wù】上仅提供十【shí】张标【biāo】记图像的小样【yàng】本【běn】学习方法的【de】定性【xìng】比【bǐ】较。在其他方法失败【bài】的情况【kuàng】下, VTM 成功地学习了所有具有不同语【yǔ】义和不同标签表示的新任务。

在【zài】图【tú】2中,虚线【xiàn】上方的分别是真实【shí】标签和两种监督学习方【fāng】法 DPT 和 InvPT。虚【xū】线下方的是小【xiǎo】样本【běn】学习方法。值得【dé】注意的是,其他小样本基线在新任务上【shàng】出现了灾难性的欠拟合【hé】,而【ér】 VTM 成功地学【xué】习了所有【yǒu】任【rèn】务【wù】。实【shí】验说明,VTM 可以在极少量的标记示例【lì】(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用【yòng】于任意【yì】密集预【yù】测任务【wù】,因为匹配算法本质上包含所有任【rèn】务和标签【qiān】结构(例如,连续或离散)。此外【wài】,VTM 仅引入了少量的任务特定参数,就【jiù】能具备抗过拟合性【xìng】与灵【líng】活性【xìng】。未来研【yán】究员们希望进一步【bù】探究【jiū】预训练过程中的任务类型、数据量、以及数【shù】据分布对【duì】模【mó】型泛化【huà】性能的【de】影响,从而帮助我们构建一【yī】个真正普适【shì】的小【xiǎo】样本学习器【qì】。

为你推荐

最新资讯

股票软件