Microsoft का बड़ा धमाका: 3 नए AI टूल्स से बदल जाएगी आपकी वर्किंग स्टाइल, जानें कैसे मिलेगा फायदा

By Yashwant Tongariya Apr 4, 2026, 15:05 IST

Microsoft ने पिछले गुरुवार को तीन खास Artificial Intelligence (AI) मॉडल लॉन्च किए, जिनका फोकस इमेज बनाने, आवाज़ बनाने और स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन पर है। Redmond-स्थित यह टेक कंपनी दावा करती है कि ये मॉडल Google, OpenAI और दूसरी कंपनियों के खास मॉडलों से बेहतर परफ़ॉर्म करते हैं। इन मॉडलों—MAI-Transcribe-1, MAI-Voice-1, और MAI-Image—के बारे में यह भी बताया गया है कि इनका मुख्य मकसद तेज़ी से कंटेंट बनाना मुमकिन बनाना और किफ़ायती कीमतों पर उपलब्ध होना है। ये मॉडल अभी Microsoft Foundry के ज़रिए उपलब्ध हैं और इन्हें अलग-अलग कंज्यूमर प्रोडक्ट्स में भी इंटीग्रेट किया जा रहा है।

Microsoft ने तीन नए AI मॉडल पेश किए

एक न्यूज़ पोस्ट में, इस टेक कंपनी ने तीन नए Large Language Models (LLMs) से पर्दा उठाया। ये सभी अभी Microsoft Foundry और MAI Playground के ज़रिए एक्सेस किए जा सकते हैं। इनमें सबसे खास है MAI-Transcribe-1, जिसके बारे में कंपनी का दावा है कि यह 25 सबसे ज़्यादा बोली जाने वाली भाषाओं में State-of-the-Art (SOTA) स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन की क्षमताएँ देता है।

ये दावे Microsoft के FLEURS बेंचमार्क का इस्तेमाल करके किए गए अंदरूनी टेस्ट पर आधारित हैं। बताया गया है कि यह मॉडल एरर रेट के मामले में Gemini 3.1 Flash और GPT-Transcribe से बेहतर परफ़ॉर्म करता है। इसके अलावा, कंपनी का कहना है कि Foundry यूज़र्स के लिए, यह मॉडल "किसी भी बड़े क्लाउड प्रोवाइडर के मुकाबले सबसे अच्छा प्राइस-परफ़ॉर्मेंस रेश्यो" देगा।

AI से बनी एक इमेज का सैंपल

MAI-Voice-1 की बात करें, तो इस LLM को "नेचुरल, असली जैसी आवाज़ें बनाने में सक्षम बताया गया है, जो बारीकियों, भावनाओं की पूरी रेंज और खास अंदाज़ को साफ़ तौर पर दिखाती हैं।" यह मॉडल लंबे कंटेंट को बनाते समय भी आवाज़ और बोलने के अंदाज़ में एकरूपता बनाए रखने में सक्षम है। Foundry के अंदर, यह मॉडल यूज़र्स को सिर्फ़ कुछ सेकंड के ऑडियो इनपुट का इस्तेमाल करके अपनी खुद की कस्टम आवाज़ें बनाने की भी सुविधा देगा।

Microsoft ज़ोर देकर कहता है कि यह पूरी प्रक्रिया पूरी तरह से सुरक्षित और महफ़ूज़ है। उपलब्ध जानकारी के अनुसार, यह सिर्फ़ एक सेकंड में 60-सेकंड की ऑडियो क्लिप बना सकता है। खास बात यह है कि यह AI मॉडल Copilot Audio Expressions और Copilot Podcasts को भी पावर देगा।

आखिर में, MAI-Image-2 मॉडल अपने पिछले मॉडल की खूबियों पर आधारित है; कहा जाता है कि यह पहले से कहीं ज़्यादा तेज़ी से और बेहतर क्वालिटी का आउटपुट देता है। Microsoft ने बताया कि इस मॉडल को फ़ोटोग्राफ़रों, डिज़ाइनरों और विज़ुअल स्टोरीटेलर्स के साथ मिलकर डेवलप किया गया है, जिसमें मुख्य रूप से नैचुरल लाइटिंग, सटीक टेक्सचर और इमेज के अंदर साफ़ टेक्स्ट पर फ़ोकस किया गया है।

खास बात यह है कि WPP उन पहले एंटरप्राइज़ पार्टनर्स में से एक है जिसने इस AI मॉडल को अपनाया है। बाकी दो मॉडल्स की तरह, यह मॉडल भी Microsoft Foundry और MAI Playground के ज़रिए उपलब्ध होगा। इसके अलावा, इसे Copilot, Bing और PowerPoint पर भी रोल आउट किया जा रहा है।