
एनवीडिया ने एक नया जेनरेटिव ऑडियो एआई मॉडल जारी किया है जो उपयोगकर्ता के सरल टेक्स्ट और ऑडियो संकेतों के आधार पर असंख्य ध्वनियां, संगीत और यहां तक कि आवाजें बनाने में सक्षम है।
उदाहरण के लिए, डब किया गया फुगाट्टो (उर्फ फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1) मॉडल, केवल टेक्स्ट प्रॉम्प्ट के आधार पर जिंगल और गाने के स्निपेट बना सकता है, मौजूदा ट्रैक से वाद्ययंत्र और स्वर जोड़ या हटा सकता है, आवाज के उच्चारण और भावना दोनों को संशोधित कर सकता है, और “यहां तक कि लोगों को ऐसी ध्वनियां उत्पन्न करने दें जो पहले कभी नहीं सुनी गईं,” प्रति सोमवार की घोषणा पोस्ट.
एनवीडिया में एप्लाइड ऑडियो रिसर्च के प्रबंधक राफेल वैले ने कहा, “हम एक ऐसा मॉडल बनाना चाहते थे जो इंसानों की तरह ध्वनि को समझ सके और उत्पन्न कर सके।” “फुगाटो भविष्य की ओर हमारा पहला कदम है जहां ऑडियो संश्लेषण और परिवर्तन में बिना पर्यवेक्षित मल्टीटास्क सीखना डेटा और मॉडल पैमाने से उभरता है।”
कंपनी का कहना है कि संगीत निर्माता विभिन्न व्यवस्थाओं के साथ विभिन्न संगीत शैलियों में गाने के विचारों को तेजी से प्रोटोटाइप और जांचने के लिए एआई मॉडल का उपयोग कर सकते हैं, या मौजूदा ट्रैक में प्रभाव और अतिरिक्त परतें जोड़ सकते हैं। मौजूदा विज्ञापन अभियान के संगीत और वॉयसओवर को अनुकूलित और स्थानीयकृत करने के लिए मॉडल का लाभ उठाया जा सकता है, या खिलाड़ी द्वारा एक स्तर के माध्यम से खेलते समय वीडियो गेम के संगीत को तुरंत समायोजित किया जा सकता है।
यह मॉडल तुरही के भौंकने या सैक्सोफोन की म्याऊं जैसी पहले अनसुनी आवाजें उत्पन्न करने में भी सक्षम है। ऐसा करने में, यह प्रशिक्षण के दौरान सीखे गए निर्देशों को संयोजित करने के लिए कंपोज़ेबलएआरटी नामक तकनीक का उपयोग करता है।
एनवीडिया एआई के शोधकर्ता रोहन बडलानी ने घोषणा पोस्ट में लिखा, “मैं उपयोगकर्ताओं को व्यक्तिपरक या कलात्मक तरीके से विशेषताओं को संयोजित करने देना चाहता था, यह चुनते हुए कि वे प्रत्येक पर कितना जोर देते हैं।” “मेरे परीक्षणों में, परिणाम अक्सर आश्चर्यजनक थे और मुझे एक कलाकार जैसा महसूस हुआ, भले ही मैं एक कंप्यूटर वैज्ञानिक हूं।”
फुगाट्टो मॉडल स्वयं 2.5 बिलियन मापदंडों का उपयोग करता है और इसे 32 H100 GPU पर प्रशिक्षित किया गया था। इस तरह के ऑडियो एआई तेजी से आम होते जा रहे हैं। स्थिरता ए.आई अप्रैल में इसी तरह की प्रणाली का अनावरण किया जो कि तीन मिनट तक की लंबाई वाले ट्रैक तैयार कर सकता है Google का V2A मॉडल “किसी भी वीडियो इनपुट के लिए असीमित संख्या में साउंडट्रैक उत्पन्न कर सकता है।”
यूट्यूब हाल ही में एक एआई संगीत रीमिक्सर जारी किया गया यह इनपुट गीत और उपयोगकर्ता के टेक्स्ट संकेतों के आधार पर 30-सेकंड का नमूना तैयार करता है। यहां तक कि ओपनएआई भी इस क्षेत्र में प्रयोग कर रहा है, उसने अप्रैल में एक एआई टूल जारी किया था केवल 15 सेकंड के नमूना ऑडियो की आवश्यकता है उपयोगकर्ता की आवाज़ और स्वर पैटर्न को पूरी तरह से क्लोन करने के लिए।