Tag: Vision-Language

LocateAnything

Detect and label objects in images and videos. LocateAnything is an NVIDIA vision-language model that finds objects, text, GUI elements, and points in images with natural language prompts.

#Recommand
#Vision-Language

Try This Model Now