AI के लिए Cohere कंप्यूटर विजन-आधारित कार्यों के लिए ओपन-सोर्स अया विज़न मॉडल जारी करता है

एआई के लिए, फर्म के ओपन रिसर्च डिवीजन के लिए, मंगलवार को नए अत्याधुनिक (SOTA) विज़न मॉडल जारी किए। डब्ड एया विजन, आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल दो पैरामीटर आकारों में उपलब्ध हैं। कंपनी के नवीनतम फ्रंटियर मॉडल विभिन्न भाषाओं में मौजूदा बड़े भाषा मॉडल (एलएलएम) के असंगत प्रदर्शन को संबोधित करते हैं, विशेष रूप से मल्टीमॉडल कार्यों के लिए। AYA विज़न मॉडल 23 भाषाओं में आउटपुट उत्पन्न कर सकते हैं और पाठ-आधारित और छवि-आधारित दोनों कार्यों को कर सकते हैं। हालाँकि, यह छवियों को उत्पन्न नहीं कर सकता है। Cohere ने AI मॉडल को ओपन-सोर्स रिपॉजिटरी के साथ-साथ व्हाट्सएप के माध्यम से उपलब्ध कराया है।

Cohere aya विज़न AI मॉडल जारी करता है

में एक ब्लॉग भेजाएआई फर्म ने नए विज़न मॉडल को विस्तृत किया। AYA विजन 8B और 32B पैरामीटर आकारों में उपलब्ध है। ये मॉडल पाठ उत्पन्न कर सकते हैं, 23 भाषाओं में पाठ और छवियों का अनुवाद कर सकते हैं, छवियों का विश्लेषण कर सकते हैं और उनके बारे में प्रश्नों का उत्तर दे सकते हैं, साथ ही साथ कैप्शन छवियों को भी। दोनों मॉडलों को Cohere के गले लगने वाले चेहरे के माध्यम से एक्सेस किया जा सकता है पेज और कागल पर।

इसके अतिरिक्त, सामान्य उपयोगकर्ता एक समर्पित व्हाट्सएप चैट के माध्यम से Cohere के मॉडल की कोशिश कर सकते हैं खाता कि यहां पहुँचा जा सकता है। कंपनी का कहना है कि AYA विज़न मॉडल उदाहरणों के लिए उपयोगी होते हैं जब लोग उन छवियों या कलाकृतियों में आते हैं जिनके बारे में वे अधिक सीखना चाहते हैं।

कंपनी के आंतरिक परीक्षण के आधार पर, AYA विज़न 8B मॉडल QWEN2.5-VL 7B, GEMINI FLASH 1.5 8B, और Llama 3.2 11B विज़न मॉडल को AyavisionBench और M-Wildvision बेंचमार्क पर आउटपरफॉर्म करता है। विशेष रूप से, AyavisionBench बेंचमार्क भी Cohere द्वारा विकसित किया गया था, और इसके विवरण को सार्वजनिक डोमेन में साझा किया गया है।

AYA विज़न 32B मॉडल पर आकर, कंपनी ने दावा किया कि इसने LLAMA 3.2 90B विजन और Qwen2-VL 72B मॉडल को एक ही बेंचमार्क पर बेहतर बनाया।

फ्रंटियर प्रदर्शन प्राप्त करने के लिए, कोहेरे ने दावा किया कि कई एल्गोरिथम नवाचार विकसित किए गए थे। AYA विज़न मॉडल को सिंथेटिक एनोटेशन खिलाया गया, डेवलपर्स ने अनुवाद और रीफ्रासिंग के माध्यम से बहुभाषी डेटा को बढ़ाया, और कई मल्टीमॉडल मॉडल को अलग -अलग चरणों में विलय कर दिया गया। डेवलपर्स ने देखा कि प्रत्येक चरण में, प्रदर्शन में काफी सुधार हुआ था।

विशेष रूप से, डेवलपर्स कागल और हगिंग फेस से एया विज़न मॉडल के खुले वजन का उपयोग कर सकते हैं, हालांकि, ये मॉडल एक क्रिएटिव कॉमन्स एट्रिब्यूशन नॉन कमर्शियल 4.0 लाइसेंस के साथ उपलब्ध हैं। यह अकादमिक और शोध-आधारित उपयोग के लिए अनुमति देता है लेकिन व्यावसायिक उपयोग के मामलों को प्रतिबंधित करता है।

Source link