Menu Close

दृष्टि और भाषा का मेल अधिक महत्वपूर्ण हो सकता है…

बुद्धि के सिद्धांत के आधार पर जिसके लिए आप सदस्यता लेते हैं, “मानव-स्तर” एआई को प्राप्त करने के लिए एक ऐसी प्रणाली की आवश्यकता होगी जो दुनिया के बारे में तर्क करने के लिए कई तौर-तरीकों – जैसे, ध्वनि, दृष्टि और पाठ का लाभ उठा सके। उदाहरण के लिए, जब एक बर्फीले हाईवे पर एक गिराए गए ट्रक और एक पुलिस क्रूजर की छवि दिखाई जाती है, तो मानव-स्तर का AI अनुमान लगा सकता है कि खतरनाक सड़क की स्थिति दुर्घटना का कारण बनी। या, रोबोट पर दौड़ते हुए, जब रेफ्रिजरेटर से सोडा की एक कैन लेने के लिए कहा जाता है, तो वे कैन को पुनः प्राप्त करने के लिए लोगों, फर्नीचर और पालतू जानवरों के चारों ओर नेविगेट करते हैं और इसे अनुरोधकर्ता की पहुंच के भीतर रखते हैं।

आज का AI कम पड़ गया है। लेकिन नए शोध में रोबोट से लेकर स्पष्टीकरण से सीखने वाले टेक्स्ट-प्रोडक्शन सिस्टम तक बुनियादी आदेशों (जैसे, “पानी की बोतल प्राप्त करें”) को पूरा करने के लिए कदमों का पता लगाने वाले रोबोट से उत्साहजनक प्रगति के संकेत मिलते हैं। डीप साइंस के इस पुनर्जीवित संस्करण में, एआई और व्यापक वैज्ञानिक क्षेत्र में नवीनतम विकास के बारे में हमारी साप्ताहिक श्रृंखला, हम डीपमाइंड, गूगल और ओपनएआई के काम को कवर कर रहे हैं जो उन प्रणालियों की ओर कदम बढ़ाता है जो – अगर पूरी तरह से दुनिया को नहीं समझ सकते हैं – प्रभावशाली मजबूती के साथ चित्र बनाने जैसे संकीर्ण कार्यों को हल करें।

AI अनुसंधान प्रयोगशाला OpenAI का उन्नत DALL-E, DALL-E 2, AI अनुसंधान प्रयोगशाला की गहराई से उभरने के लिए आसानी से सबसे प्रभावशाली परियोजना है। जैसा कि मेरे सहयोगी डेविन कोल्डवी लिखते हैं, जबकि मूल DALL-E ने लगभग किसी भी संकेत से मेल खाने के लिए चित्र बनाने के लिए एक उल्लेखनीय कौशल का प्रदर्शन किया (उदाहरण के लिए, “बेरेट पहने हुए एक कुत्ता”), DALL-E 2 इसे और आगे ले जाता है। इसके द्वारा बनाई गई छवियां बहुत अधिक विस्तृत हैं, और DALL-E 2 छवि में दिए गए क्षेत्र को समझदारी से बदल सकता है – उदाहरण के लिए उपयुक्त प्रतिबिंबों से भरे संगमरमर के फर्श की तस्वीर में एक तालिका सम्मिलित करना।

ओपनएआई दाल-ई 2

छवियों के प्रकारों का एक उदाहरण DALL-E 2 उत्पन्न कर सकता है।

DALL-E 2 ने इस सप्ताह सबसे अधिक ध्यान आकर्षित किया। लेकिन गुरुवार को, Google के शोधकर्ताओं ने टेक्स्ट-टू-स्पीच के लिए विज़ुअली-ड्रिवेन प्रोसोडी नामक एक समान रूप से प्रभावशाली दृश्य समझ प्रणाली का विस्तार किया – वीडीटीटीएस – Google के AI ब्लॉग पर प्रकाशित एक पोस्ट में। वीडीटीटीएस यथार्थवादी-ध्वनि उत्पन्न कर सकता है, लिप-सिंक किए गए भाषण को बोलने वाले व्यक्ति के टेक्स्ट और वीडियो फ्रेम से ज्यादा कुछ नहीं दिया जाता है।

वीडीटीटीएस का जनरेट किया गया भाषण, जबकि रिकॉर्ड किए गए संवाद के लिए एकदम सही स्टैंड-इन नहीं है, फिर भी काफी अच्छा है, जिसमें मानव जैसी अभिव्यक्ति और समय है। Google देखता है कि एक दिन इसका उपयोग स्टूडियो में मूल ऑडियो को बदलने के लिए किया जा रहा है जिसे शोर की स्थिति में रिकॉर्ड किया गया हो सकता है।

बेशक, अधिक सक्षम एआई के मार्ग पर दृश्य समझ सिर्फ एक कदम है। एक अन्य घटक भाषा की समझ है, जो कई पहलुओं में पीछे है – यहां तक ​​​​कि एआई को अलग करना अच्छी तरह से प्रलेखित विषाक्तता और पक्षपात मुद्दे. एक स्पष्ट उदाहरण में, Google, पाथवे लैंग्वेज मॉडल (PaLM) के एक अत्याधुनिक सिस्टम ने एक पेपर के अनुसार 40% डेटा को “ट्रेन” करने के लिए याद किया, जिसके परिणामस्वरूप PaLM ने कॉपीराइट नोटिस में टेक्स्ट को चोरी कर लिया। कोड के टुकड़े।

सौभाग्य से, डीपमाइंड, अल्फाबेट द्वारा समर्थित एआई लैब, इसे संबोधित करने के लिए तकनीकों की खोज करने वालों में से है। एक नए में पढाईडीपमाइंड शोधकर्ता जांच करते हैं कि क्या एआई भाषा प्रणाली – जो मौजूदा पाठ के कई उदाहरणों से पाठ उत्पन्न करना सीखती है (पुस्तकें और सोशल मीडिया सोचें) – दिए जाने से लाभ हो सकता है स्पष्टीकरण उन पाठों का। दर्जनों भाषा कार्यों की व्याख्या करने के बाद (उदाहरण के लिए, “दूसरा वाक्य पहले, रूपक वाक्य का एक उपयुक्त पैराफ्रेश है या नहीं) की पहचान करके इन सवालों के जवाब दें” स्पष्टीकरण के साथ (उदाहरण के लिए, “डेविड की आंखें सचमुच खंजर नहीं थीं, यह एक रूपक है जिसका उपयोग किया जाता है इसका मतलब यह है कि डेविड पॉल पर जमकर निशाना साध रहा था।”) और उन पर विभिन्न प्रणालियों के प्रदर्शन का मूल्यांकन करते हुए, डीपमाइंड टीम ने पाया कि उदाहरण वास्तव में सिस्टम के प्रदर्शन में सुधार करते हैं।

डीपमाइंड का दृष्टिकोण, यदि यह अकादमिक समुदाय के भीतर मस्टर पास करता है, तो एक दिन रोबोटिक्स में लागू किया जा सकता है, जो रोबोट के बिल्डिंग ब्लॉक्स का निर्माण करता है जो चरण-दर-चरण निर्देशों के बिना अस्पष्ट अनुरोधों (उदाहरण के लिए, “कचरा बाहर फेंक”) को समझ सकता है। गूगल का नया “जैसा मैं कर सकता हूं वैसा करो, जैसा मैं कहता हूं वैसा नहीं“परियोजना इस भविष्य में एक झलक देती है – यद्यपि महत्वपूर्ण सीमाओं के साथ।

Google में रोबोटिक्स और अल्फाबेट की एक्स लैब में रोज़मर्रा की रोबोटिक्स टीम के बीच एक सहयोग, जैसा मैं कर सकता हूँ, जैसा कि मैं कहता हूँ, एक रोबोट के लिए “व्यवहार्य” और “प्रासंगिक रूप से उपयुक्त” कार्यों को प्रस्तावित करने के लिए एक एआई भाषा प्रणाली की स्थिति का प्रयास करता है, जिसे मनमाने ढंग से दिया जाता है। काम। रोबोट भाषा प्रणाली के “हाथ और आंखें” के रूप में कार्य करता है, जबकि सिस्टम कार्य के बारे में उच्च-स्तरीय शब्दार्थ ज्ञान की आपूर्ति करता है – सिद्धांत यह है कि भाषा प्रणाली रोबोट के लिए उपयोगी ज्ञान के धन को एन्कोड करती है।

गूगल रोबोटिक्स

छवि क्रेडिट: Google पर रोबोटिक्स

SayCan नामक एक प्रणाली यह चुनती है कि कमांड के जवाब में रोबोट को किस कौशल का प्रदर्शन करना चाहिए, (1) किसी दिए गए कौशल की संभावना उपयोगी है और (2) उक्त कौशल को सफलतापूर्वक निष्पादित करने की संभावना। उदाहरण के लिए, किसी के यह कहने के जवाब में कि “मैंने अपना कोक गिराया है, क्या आप मुझे इसे साफ करने के लिए कुछ ला सकते हैं?” SayCan रोबोट को स्पंज खोजने, स्पंज लेने और उसे मांगने वाले के पास लाने का निर्देश दे सकता है। यह।

SayCan रोबोटिक्स हार्डवेयर द्वारा सीमित है – एक से अधिक अवसरों पर, अनुसंधान दल ने उस रोबोट का अवलोकन किया जिसे उन्होंने गलती से वस्तुओं को गिराने वाले प्रयोगों का संचालन करने के लिए चुना था। फिर भी, यह, DALL-E 2 और दीपमाइंड के प्रासंगिक समझ के काम के साथ, इस बात का एक उदाहरण है कि कैसे AI सिस्टम संयुक्त होने पर हमें एक के बहुत करीब पहुंचा सकते हैं जेट्सन-प्रकार भविष्य।

Leave a Reply

Your email address will not be published. Required fields are marked *