Sora OpenAI अमेरिका स्थित कृत्रिम बुद्धिमत्ता अनुसंधान संगठन OpenAI द्वारा विकसित एक टेक्स्ट-टू-वीडियो मॉडल है। यह वर्णनात्मक संकेतों के आधार पर वीडियो उत्पन्न कर सकता है, मौजूदा वीडियो को समय में आगे या पीछे बढ़ा सकता है, और स्थिर छवियों से वीडियो उत्पन्न कर सकता है।
What is Sora OpenAI?
Sora एक Open AI company Video generation model टूल है Sora की मदद से आप कुछ ही टाइम में AI video generate कर सकते है वो भी text -to -text ,Images एंड ओल्ड वीडियो एंड existing वीडियो से भी।
Image Credit: Other Source
उदाहरण के लिए, यदि आप समुद्र में घूमना चाहते हैं तो आपको सोरा को आदेश देना होगा।” अपनी इच्छाओं के अनुरूप विचार को सोरा में डालें” फिर यह आपके लिए उसी प्रकार का अनुभव कल्पना वीडियो बनाने का प्रयास करेगा। सोरा आपकी इच्छानुसार ही आपका वीडियो बनाएगा। यह कल्पना से परे अद्भुत है।
सोरा के द्वारा आश्चर्यजनक वीडियो बनाने के लिए, OpenAI शोधकर्ताओं ने उच्च गुणवत्ता वाले वीडियो बनाने में दक्षता और बहुमुखी प्रतिभा बढ़ाने के लिए नई तकनीकों का उपयोग किया है । वर्थटाइम्स इस बात की पड़ताल कर रहा है कि सोरा को इतना खास क्या बनाता है। चलिए जानते है सॉरा के बारे में।
What can Sora OpenAI do?
Sora OpenAI एक नया टेक्स्ट-टू-वीडियो मॉडल, जेनेरिक एआई को महत्वपूर्ण रूप से आगे बढ़ाता है, टेक्स्ट प्रॉम्प्ट से यथार्थवादी वीडियो तैयार करता है। टेक्स्ट के लिए ChatGPT और छवियों के लिए Dall-E के समान, सोरा फुल-मोशन वीडियो बनाने की अनुमति देता है.
Sora OpenAI एक मिनट तक के उच्च गुणवत्ता वाले वीडियो बनाता है।
Sora OpenAI द्वारा बनाए गए वीडियो में अत्यधिक विस्तृत दृश्य और जटिल कैमरा गति होती है। यह लोगों को दृश्यों में भी जोड़ सकता है।
Sora OpenAI न केवल यह समझती है कि उपयोगकर्ता ने प्रॉम्प्ट में क्या मांगा है, बल्कि यह भी समझता है कि भौतिक दुनिया में वे चीजें कैसे मौजूद हैं।
Video Source: Sora OpenAI
How is Sora able to produce cinematic-quality videos?
Sora OpenAI एक टेक्स्ट-टू-वीडियो जेनरेटर AI मॉडल है, जिसे फरवरी 2024 में ओपनएआई द्वारा जारी किया गया था। मॉडल को टेक्स्ट निर्देशों से यथार्थवादी या कल्पनाशील दृश्यों के वीडियो बनाने के लिए प्रशिक्षित किया गया है और भौतिक दुनिया का अनुकरण करने की क्षमता दिखाता है। सार्वजनिक तकनीकी रिपोर्ट और रिवर्स इंजीनियरिंग के आधार पर, यह पेपर मॉडल की पृष्ठभूमि, संबंधित प्रौद्योगिकियों, अनुप्रयोगों, शेष चुनौतियों और टेक्स्ट-टू-वीडियो एआई मॉडल की भविष्य की दिशाओं की व्यापक समीक्षा प्रस्तुत करता है।
हम पहले Sora OpenAI के विकास का पता लगाते हैं और इस “विश्व सिम्युलेटर” को बनाने के लिए उपयोग की जाने वाली अंतर्निहित प्रौद्योगिकियों की जांच करते हैं। फिर, हम फिल्म निर्माण और शिक्षा से लेकर विपणन तक कई उद्योगों में सोरा के अनुप्रयोगों और संभावित प्रभाव का विस्तार से वर्णन करते हैं। हम उन मुख्य चुनौतियों और सीमाओं पर चर्चा करते हैं जिन्हें सोरा को व्यापक रूप से तैनात करने के लिए संबोधित करने की आवश्यकता है, जैसे कि सुरक्षित और निष्पक्ष वीडियो पीढ़ी सुनिश्चित करना। अंत में, हम सामान्य रूप से सोरा और वीडियो जेनरेशन मॉडल के भविष्य के विकास पर चर्चा करते हैं, और इस क्षेत्र में प्रगति कैसे मानव-एआई इंटरैक्शन के नए तरीकों को सक्षम कर सकती है, जिससे वीडियो जेनरेशन की उत्पादकता और रचनात्मकता को बढ़ावा मिल सकता है।
Credit:OpenAI
How safe will Sora be?
1. एक टाइम-स्पेस कंप्रेसर पहले मूल वीडियो को अव्यक्त स्थान में मैप करता है
सोरा एक वीडियो बनाता है लेकिन प्रभावी ढंग से काम करना आसान बनाने के लिए इसे छोटा कर देता है।
इनपुट डेटा को “पैच” में विभाजित करके, जिसे बाद में संक्षिप्त क्षणों में दृश्य उपस्थिति और गति गतिशीलता दोनों को कैप्चर करने के लिए निकाला जाता है।
2. एक विज़न ट्रांसफॉर्मर (वीआईटी) तब टोकनयुक्त अव्यक्त प्रतिनिधित्व को संसाधित करता है और डी-नॉइज़्ड अव्यक्त प्रतिनिधित्व को आउटपुट करता है
इस चरण को अंतिम वीडियो की गुणवत्ता में सुधार करने के लिए मिट्टी को तराशने, किनारों को चिकना करने जैसा समझें।
सोरा संपीड़ित वीडियो लेती है और उसे साफ़ करती है। वीआईटी वीडियो डेटा को उसके संपीड़ित रूप में देखता है और इसे बेहतर बनाने के तरीकों का पता लगाता है, जिससे अंतिम वीडियो बेहतर दिखता है।
3. एक सीएलआईपी-जैसी कंडीशनिंग तंत्र स्टाइल या थीम वाले वीडियो उत्पन्न करने के लिए प्रसार मॉडल का मार्गदर्शन करने के लिए एलएलएम-संवर्धित उपयोगकर्ता निर्देश और दृश्य संकेत प्राप्त करता है
Image Credit: OpenAI