Multi-Modal Foundation Models > BiomedCLIP

CLIP-based vision-language foundation model for biomedical images and text trained on PubMed figure–caption pairs.

Package GitHub