AI को लेकर गूगल की चेतावनी! आंख बंद कर भरोसा करना पड़ेगा महंगा, टेस्ट के शॉकिंग रिजल्ट जान उड़ जाएंगे होश
यह उन लोगों के लिए एक वेक-अप कॉल है जो AI चैटबॉट द्वारा दिए गए जवाबों पर आँख बंद करके भरोसा करते हैं। Google ने एक असेसमेंट पब्लिश किया है जिसमें AI चैटबॉट की सटीकता का खुलासा किया गया है। अपने हाल ही में लॉन्च किए गए FACTS बेंचमार्क सूट का इस्तेमाल करके, Google ने पाया कि सबसे शक्तिशाली AI मॉडल भी 70 प्रतिशत से ज़्यादा तथ्यात्मक सटीकता हासिल करने में फेल हो जाते हैं। आसान शब्दों में, इसका मतलब है कि AI चैटबॉट लगभग हर तीन जवाबों में से एक में गलत जवाब देते हैं।
जेमिनी 3 प्रो सबसे सटीक था
Google के बेंचमार्क टेस्ट में, कंपनी के जेमिनी 3 प्रो मॉडल ने 69 प्रतिशत सटीकता के साथ सबसे अच्छा प्रदर्शन किया। OpenAI, Anthropic और एलन मस्क के xAI के मॉडल इस लेवल तक भी नहीं पहुँच पाए। जेमिनी 2.5 प्रो और ChatGPT-5 ने 62 प्रतिशत सटीकता के साथ जवाब दिए, जबकि क्लाउड 4.5 ओपस ने 51 प्रतिशत सटीकता दिखाई और ग्रोक 4 ने लगभग 54 प्रतिशत सटीकता दिखाई। ज़्यादातर AI मॉडल मल्टीमॉडल टास्क में लड़खड़ा गए, और उनकी सटीकता 50 प्रतिशत से कम हो गई।
Google का बेंचमार्क टेस्ट कैसे काम करता है?
Google का बेंचमार्क AI मॉडल की क्षमताओं का अलग तरीके से आकलन करता है। जबकि ज़्यादातर टेस्ट में टेक्स्ट को समराइज़ करने या कोड लिखने जैसे टास्क शामिल होते हैं, FACTS बेंचमार्क मॉडल से यह वेरिफाई करने के लिए कहता है कि वह जो जानकारी देता है, वह कितनी तथ्यात्मक रूप से सटीक है। यह मॉडल चार प्रैक्टिकल यूज़ केस पर काम करता है। पहला टेस्ट यह चेक करता है कि क्या मॉडल ट्रेनिंग के दौरान इस्तेमाल किए गए डेटा के आधार पर ही तथ्यात्मक जवाब दे सकता है। दूसरा टेस्ट मॉडल के सर्च परफॉर्मेंस का मूल्यांकन करता है, तीसरा टेस्ट यह जाँचता है कि नया और अतिरिक्त विवरण प्राप्त करने के लिए मॉडल दिए गए डॉक्यूमेंट पर कितना निर्भर करता है, और चौथा टेस्ट इसकी मल्टीमॉडल समझने की क्षमताओं का टेस्ट करता है, जैसे कि चार्ट, डायग्राम और इमेज को समझने की क्षमता।