该项目名为「vit-pytorch」,它是一个 Vision Transformer 实现,展示了一种在 PyTorch 中仅使用单个 transformer 编码器来实现视觉分类 SOTA 结果的简单方法。 近一两年,Transformer 跨界 CV 任务不再是什么新鲜事了。 自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来 ...