एआई इमेज जेनरेटर लगातार खराब होते जा रहे हैं

यह है स्टेपबैकएक साप्ताहिक समाचार पत्र जो तकनीकी जगत से एक आवश्यक कहानी प्रस्तुत करता है। स्मार्टफ़ोन और डिजिटल इमेजरी पर अधिक जानकारी के लिए – वास्तविक या अन्यथा – एलिसन जॉनसन का अनुसरण करें। स्टेपबैक हमारे ग्राहकों के इनबॉक्स में सुबह 8 बजे ईटी पर आता है। के लिए ऑप्ट इन करें स्टेपबैक यहाँ।

एआई छवि निर्माण के शुरुआती दिन याद हैं? ओह, हम कैसे हँसे जब हमारे संकेतों के परिणामस्वरूप बहुत अधिक उंगलियाँ, रबर जैसे अंग और अन्य विवरण वाले लोग आसानी से नकली की ओर इशारा कर रहे थे। लेकिन यदि आप ध्यान नहीं दे रहे हैं, तो मुझे आपको यह बताते हुए खेद हो रहा है कि मजाक खत्म हो गया है। एआई छवि जनरेटर यथार्थवादी नकली बनाने में काफी बेहतर हो रहे हैं, आंशिक रूप से एक आश्चर्यजनक नए विकास के लिए धन्यवाद: छवि गुणवत्ता को थोड़ा सा बनाना ज़्यादा बुरा.

यदि आप इस पर विश्वास कर सकते हैं, तो OpenAI ने पांच साल से भी कम समय पहले अपना इमेज जेनरेशन टूल DALL-E लॉन्च किया था। अपने पहले पुनरावृत्ति में, यह केवल 256 x 256 पिक्सेल छवियाँ उत्पन्न कर सका; मूल रूप से छोटे थंबनेल। एक साल बाद, DALL-E 2 ने एक बड़ी छलांग के रूप में शुरुआत की। छवियां 1024 x 1024 थीं, और आश्चर्यजनक रूप से वास्तविक दिख रही थीं। लेकिन हमेशा कहा-सुनी होती रहती थी.

बीटा में लॉन्च होने के तुरंत बाद DALL-E 2 के साथ केसी न्यूटन के हाथों में, उन्होंने अपने प्रॉम्प्ट से बनाई गई एक छवि शामिल की: “फायरफाइटर के रूप में तैयार एक शीबा इनु कुत्ता।” यह बुरा नहीं है, और यदि आपने इसे एक नज़र में देखा तो यह आपको मूर्ख बना सकता है। लेकिन कुत्ते के फर की आकृति धुंधली है, उसके (मनमोहक छोटे) कोट पर पैच बस कुछ बकवास लिखावट है, और कुत्ते की गर्दन के किनारे पर एक अजीब, मोटा कॉलर टैग लटका हुआ है जो वहां नहीं है। उसी लेख से आंखों के साथ दालचीनी रोल पर विश्वास करना आसान था।

मिडजॉर्नी और स्टेबल डिफ्यूजन भी इस समय के आसपास प्रमुखता से आए, जिन्हें एआई कलाकारों और कम स्वादिष्ट डिजाइन वाले लोगों ने अपनाया। अगले कुछ वर्षों में नए, बेहतर मॉडल सामने आए, जिससे खामियाँ कम हो गईं और पाठ को कुछ हद तक अधिक सटीक रूप से प्रस्तुत करने की क्षमता जुड़ गई। लेकिन अधिकांश एआई जनित छवियां अभी भी एक निश्चित लुक रखती हैं: थोड़ी बहुत चिकनी और परिपूर्ण, एक प्रकार की चमक के साथ आप एक स्पष्ट तस्वीर की तुलना में एक शैलीबद्ध चित्र के साथ अधिक जुड़ेंगे। कुछ एआई छवियां अभी भी वैसी ही दिखती हैं, लेकिन इसकी ओर एक नया चलन है वास्तविक यथार्थवाद जो चमक को कम करता है।

जब आप इसकी तुलना Google और Meta जैसी कंपनियों से करते हैं तो OpenAI तकनीक की दुनिया में एक अपेक्षाकृत नवागंतुक है, लेकिन AI के बढ़ने के बावजूद ये स्थापित कंपनियां अभी भी खड़ी नहीं हैं। 2025 के उत्तरार्ध में, Google ने अपने जेमिनी ऐप में नैनो बनाना नामक एक नया छवि मॉडल जारी किया। यह तब वायरल हो गया जब लोगों ने इसका उपयोग अपनी यथार्थवादी मूर्तियाँ बनाने के लिए करना शुरू कर दिया। मेरे सहयोगी रॉबर्ट हार्ट ने इस प्रवृत्ति को आज़माया और कुछ दिलचस्प देखा: मॉडल ने अन्य एआई उपकरणों की तुलना में अपनी वास्तविक समानता को अधिक ईमानदारी से संरक्षित किया।

एआई छवियों के बारे में यही बात है: वे अक्सर एक तटस्थ, नरम मध्य मैदान की ओर प्रवृत्त होते हैं। किसी तालिका की छवि के लिए आपका अनुरोध मूल रूप से सही लगेगा, लेकिन ऐसा भी लगेगा कि किसी कंप्यूटर द्वारा अब तक देखी गई प्रत्येक तालिका का किसी वास्तविक चरित्र से रहित किसी चीज़ का औसत निकालने का परिणाम है। जो चीज़ें किसी टेबल की छवि को वास्तविक चीज़ की तरह बनाती हैं – या आपके चेहरे की विशेषताओं का पुनरुत्पादन करती हैं – वास्तव में खामियां हैं। मेरा मतलब वर्णमाला के अक्षरों को समझने की कोशिश करने वाली एआई की विचित्र कलाकृतियों से नहीं है। मेरा मतलब थोड़ी सी अव्यवस्था, गड़बड़ी और प्रकाश व्यवस्था से है जो आदर्श से कम है। और हाल ही में, इसका मतलब हमारे सबसे लोकप्रिय कैमरों की खामियों की नकल करना भी है।

Google ने एक महीने से भी कम समय पहले अपने छवि मॉडल को अपडेट किया, नैनो बनाना प्रो को अब तक का सबसे उन्नत और यथार्थवादी मॉडल बताया। यह वास्तविक दुनिया के ज्ञान से आकर्षित करने और पाठ को बेहतर ढंग से प्रस्तुत करने में सक्षम है, लेकिन जो चीज मुझे सबसे दिलचस्प लगती है वह यह है कि यह अक्सर फोन कैमरे से ली गई तस्वीर की नकल करता है। कंट्रास्ट (या इसकी कमी), परिप्रेक्ष्य, आक्रामक तीक्ष्णता, एक्सपोज़र विकल्प – इस मॉडल द्वारा मेरे लिए तैयार की गई कई छवियां फोन कैमरा सिस्टम की पहचान रखती हैं।

चाहे आप इसके बारे में जानते हों या नहीं, आप भी संभवतः इस लुक के प्रति अभ्यस्त हैं। हमारे फोन में छोटे सेंसर और लेंस बड़े कैमरे की तुलना में अपनी सीमाओं को पार करने के लिए मल्टीफ्रेम प्रोसेसिंग का उपयोग करते हैं, और इन तस्वीरों को छोटी स्क्रीन पर देखने के लिए अनुकूलित किया जाता है। कुल मिलाकर, इसका मतलब है कि किसी दृश्य के अधिक कलात्मक प्रतिनिधित्व की तुलना में फ़ोन फ़ोटो में एक निश्चित “लुक” होता है – अधिक विवरण प्रकट करने के लिए छाया को बढ़ावा देना और विषयों को पॉप बनाने के लिए तीक्ष्णता को बढ़ाना। जाहिरा तौर पर, Google के छवि जनरेटर ने भी इस शैली को अवशोषित कर लिया है।

उत्पन्न छवियों को अधिक यथार्थवादी रूप प्रदान करने में Google अकेला नहीं है। Adobe के फ़ायरफ़्लाई छवि जनरेटर में “विज़ुअल इंटेंसिटी” लेबल वाला एक नियंत्रण होता है जो आपको चमकदार AI लुक को कम करने देता है। परिणाम कम प्राचीन दिखते हैं और अधिक ऐसे दिखते हैं जैसे उन्हें वास्तविक कैमरे से कैप्चर किया गया हो – शायद फोन कैमरे की तुलना में एक पेशेवर कैमरे से अधिक, जो एडोब के पेशेवरों के लक्षित दर्शकों को देखते हुए समझ में आता है। लेकिन मेटा के एआई जनरेटर में भी “स्टाइलाइज़ेशन” के लिए एक स्लाइडर है, जो यथार्थवाद को तदनुसार ऊपर या नीचे डायल करता है। अन्यत्र, OpenAI के Sora 2 और Google के Veo 3 जैसे वीडियो जेनरेशन टूल का उपयोग सुरक्षा कैमरों के कम-रिज़ॉल्यूशन, दानेदार दृश्यों की नकल करते हुए वायरल क्लिप बनाने के लिए किया गया है। जब एआई को केवल सीसीटीवी जितना अच्छा होना चाहिए, तो यह काफी आश्वस्त करने वाला हो सकता है।

एआई में सुधार की अनंत क्षमता के दावों को संदेह की नजर से देखने के कई अच्छे कारण हैं। एआई एजेंट अभी भी आपके लिए एक जोड़ी जूते खरीदने में संघर्ष कर रहे हैं। लेकिन इमेजिंग मॉडल? उनके पास है बेहद सुधार हुआ और सबूत हमारी आंखों के सामने है।

मैंने हाल ही में लोकप्रिय iPhone कैमरा ऐप हैलाइड के सह-संस्थापकों में से एक, बेन सैंडोफ़्स्की से AI-इमिटेटिंग-स्मार्टफ़ोन प्रवृत्ति के बारे में बात की। उनका कहना है कि फोन कैमरा फोटो की मजबूत प्रसंस्करण प्रवृत्तियों और परिचितता को अपनाने से, जो पहले से ही हमारी तस्वीरों को वास्तविकता से थोड़ा अप्रासंगिक बना देता है, “Google ने अलौकिक घाटी से किनारा कर लिया होगा।” एआई को किसी दृश्य को यथार्थवादी बनाने की ज़रूरत नहीं है – एक तरह से, यह एक बेकार उपहार है। इसे बस वास्तविकता को उसकी सभी खामियों के साथ रिकॉर्ड करने के तरीके की नकल करनी है, और छवि को विश्वसनीय बनाने के लिए इसे एक प्रकार के धोखा कोड के रूप में उपयोग करना है। तो हम जो भी फोटो देखते हैं उस पर हम कैसे विश्वास करें?

सैम ऑल्टमैन का दृष्टिकोण है कि वास्तविक इमेजरी और एआई इमेजरी भविष्य में एक साथ मिल जाएंगी, और हम इससे ठीक हो जाएंगे। मुझे लगता है कि वह आंशिक रूप से सही है, लेकिन मुझे यह विश्वास करने में कठिनाई हो रही है कि हम वास्तव में इसकी परवाह नहीं करेंगे कि क्या वास्तविक है और क्या नहीं। और इन दोनों को स्वयं सुलझाने के लिए, हमें कुछ सहायता की आवश्यकता होगी। और ऐसा प्रतीत होता है कि यह रास्ते पर है – लेकिन यह उतनी तेजी से नहीं आ रहा है जितनी तेजी से एआई छवि मॉडल में सुधार हो रहा है।

C2PA का कंटेंट क्रेडेंशियल मानक कुछ आवश्यक गति प्राप्त कर रहा है। Google के Pixel 10 सीरीज फ़ोन पर, प्रत्येक कैमरे से ली गई छवि को एक क्रिप्टोग्राफ़िक हस्ताक्षर मिलता है जिससे यह पता चलता है कि इसे कैसे बनाया गया था। यह “अंतर्निहित सत्य प्रभाव” से बचा जाता है, जैसा कि पिक्सेल कैमरा प्रमुख आइज़ैक रेनॉल्ड्स ने मुझे इस साल की शुरुआत में समझाया था। यदि आप केवल AI-जनित छवियों को AI के रूप में लेबल करते हैं, तो हम मानते हैं कि बिना लेबल वाली हर चीज़ वास्तविक है। असल में, हालांकि, लेबल की कमी का मतलब केवल यह है कि हम नहीं जानते कि छवि कहां से आई है। इसलिए पिक्सेल कैमरा AI और गैर-AI दोनों छवियों को समान रूप से लेबल करता है।

लेबल सभी अच्छे और अच्छे हैं, लेकिन यदि आप उन्हें नहीं देख पाते हैं तो वे उपयोगी नहीं हैं। यह बदलना शुरू हो गया है, और इस साल की शुरुआत में Google फ़ोटो ने सामग्री क्रेडेंशियल प्रदर्शित करने के लिए समर्थन जोड़ा। कंपनी कंटेंट क्रेडेंशियल्स को खोज परिणामों और विज्ञापनों में उनके मौजूद होने पर देखना भी आसान बनाएगी। हालाँकि, वह अंतिम भाग कुंजी है – अभी, फ़ोन कैमरों से खींची गई अधिकांश छवियों को क्रेडेंशियल नहीं दिया गया है। सिस्टम को काम करने के लिए, हार्डवेयर निर्माताओं को मानक अपनाने की आवश्यकता है ताकि छवियों को बनाए जाने पर बिंदु पर एआई या नहीं के रूप में चिह्नित किया जा सके। जिन प्लेटफ़ॉर्म पर छवियां साझा की जाती हैं, उन्हें भी इसमें शामिल होने की आवश्यकता है। जब तक ऐसा नहीं होता, हम अपने दम पर हैं – और जो कुछ भी आप देखते हैं उस पर भरोसा करने का यह पहले से कहीं बेहतर समय है।

Google के Pixel 10 कैमरे न केवल AI छवि संपादन उपकरण प्रदान करते हैं – इमेजिंग पाइपलाइन में एक जेनरेटिव AI मॉडल भी शामिल है। इसका उपयोग केवल प्रो रेस ज़ूम नामक सुविधा में किया जाता है, और इसका उद्देश्य उस स्थिति में सुधार करना है जो अन्यथा बहुत खराब डिजिटल ज़ूम छवि गुणवत्ता होगी। यह अभी लोगों पर काम नहीं करता है, जो मेरी किताब में एक अच्छी बात है।
पारंपरिक कैमरा निर्माता $9,000+ लेईका एम-11पी की तरह, धीरे-धीरे ही सही, सी2पीए के कंटेंट क्रेडेंशियल्स को भी अपना रहे हैं।
इस बीच, फ़ोटोशॉप में जेनेरेटिव फिल जैसे एआई-संचालित संपादन उपकरण फोटोग्राफरों के बीच अधिक शक्तिशाली और लोकप्रिय हो गए हैं। पूरी तरह से एआई-जनरेटेड छवियों और एआई से अछूती तस्वीरों के बीच एक बीच का रास्ता है जिसे परिभाषित करना मुश्किल होता जा रहा है।

मेरे सहकर्मी जेस वेदरबेड ने C2PA का एक बेहतरीन व्याख्याकार लिखा जो (निराशाजनक रूप से!) अभी भी एक अच्छा प्रतिबिंब है कि हम एक साल बाद कहाँ हैं।
तारयुक्त Pixel 9 लॉन्च के बारे में Google की Pixel कैमरा टीम से बात की यह कैसे हमारी तस्वीरों को यादों की तरह मानता है.
ब्लूमबर्ग सोरा 2 टू जैसे टूल का उपयोग करके रचनाकारों के समुदाय की जांच की YouTube पर बच्चों के लिए AI जनित स्लोप बनाएं. धूमिल!

विषयों और लेखकों का अनुसरण करें इस कहानी से अपने वैयक्तिकृत होमपेज फ़ीड में इस तरह की और अधिक जानकारी देखने और ईमेल अपडेट प्राप्त करने के लिए।

एलिसन जॉनसन

Source link

Leave a Comment Cancel reply