视觉识别可不只是Google一家支持哦!LiveKit还支持多家视觉模型提供商,包括:
• SmolVLM 和 SmolVLM2(由 HuggingFaceTB 提供)
• Pixtral 12B(由 mistral-community 提供)
• Qwen 2 VL 和 Qwen 2.5 VL(由 Qwen 提供)
• InternVL 2.5 和 InternVL 3(由 OpenGVLab 提供)
• Llama 4 Scout
• Moondream2
这些模型都能通过 LiveKit 的框架轻松集成和使用,让你有更多视觉识别能力的选择,满足不同需求。
Sources:
docs/multimodal.md