Image and Video Segmentation with SAM 2, Gemma 2 for Efficient Language Models, Boosting Small Models with Contrastive Fine-Tuning, and MM-Vet v2 Challenges Large Multimodal Models
MP3•Maison d'episode
Manage episode 432615995 series 3568650
Contenu fourni par PocketPod. Tout le contenu du podcast, y compris les épisodes, les graphiques et les descriptions de podcast, est téléchargé et fourni directement par PocketPod ou son partenaire de plateforme de podcast. Si vous pensez que quelqu'un utilise votre œuvre protégée sans votre autorisation, vous pouvez suivre le processus décrit ici https://fr.player.fm/legal.
SAM 2: Segment Anything in Images and Videos Gemma 2: Improving Open Language Models at a Practical Size Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning OmniParser for Pure Vision Based GUI Agent SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
…
continue reading
70 episodes