【CNMO新闻】对于学习复杂数据分布,要生成人工智能模型,这就要求它们擅长生成类似人类的语音和图像。但是,训练这些模型需要大量的标记数据,但是语料库有时会供不应求。
于是,谷歌和苏黎世联邦理工学院的研究人员提出了一种解决方法。他们描述了一个语义提取器,可以从训练数据中提取特征,以及从一小部分标记图像中推断整个训练集的标签的方法。
在研究人员提出的几种无监督方法中,他们首先提取一个特征标识,然后进行聚类分析,将标识形式分组,使同一组中的标识形式比其它组中的标识形式具有更多的共同点。最后,他们训练一个GAN神经网络,这是一个两部分组成的神经网络,由生成样本的生成器和识别器组成,识别器试图通过推断标签来区分生成的样本和真实的样本。
人工智能
在另一种称为联合训练的训练前方法中,利用无监督、半监督和自我监督方法的组合来推断标签信息与GAN训练同时进行。在无监督的步骤中,他们采取两种方法之一:完全删除标签或者为真实图像分配随机标签。相比之下,在半监督阶段,当标签对真实数据的子集可用时,他们会训练一个分类器对鉴别器的特征标识进行训练,他们用这些标签来预测未标记真实图像的标签。
为了测试该技术的性能,研究人员使用ImageNet数据库,其中包含130多万幅训练图像和5万幅测试图像,每幅图像对应1000个对象类中的一个。在第三代谷歌处理单元(TPU)的1280个核上,使用无监督、预训练和联合训练的方法对每个GAN进行三次训练后,他们用两个评分指标比较了输出的质量:FID和IS。
在未来,研究人员希望研究这些技术如何应用于更大、更多样化的数据集。