标签:FeatureExtraction

facebook/dino-vitb16

模型描述 Vision Transformer(ViT、是一个transformer编码器模型(类似于BERT、,以自监督方式预训练于一个大型图像集合(即ImageNet-1k、,分辨率为224×22...