标签：Transformers

facebook/dino-vitb16

模型描述 Vision Transformer（ViT、是一个transformer编码器模型（类似于BERT、，以自监督方式预训练于一个大型图像集合（即ImageNet-1k、，分辨率为224×22...

1年前 (2024)