تبدیل کردن متن به تصویر درحالحاضر یکی از فرایندهای الگوریتمی پرطرفداری است که با استفاده از Craiyon شرکت OpenAI یا همان DALL-E mini سابق و Imagen AIهای شرکت گوگل، کارهای بسیار عجیبی را میتوان انجام داد.
حال، در روز سهشنبه شرکت متا اعلام کرد که یک موتور تولید تصویر با استفاده از هوش مصنوعی را نیز توسعه داده است و امیدوار است که با استفاده از این موتور به ساخت جهانهای فراگیر در متاورس و ایجاد هنرهای دیجیتالی بسیار زیبا کمک کند.
سیستمهای تبدیل متن به تصویر برای آن که بتوانند جملهای مانند یک اسب در بیمارستان را بهتصویر بکشند، باید کارهای بسیار زیادی را انجام دهند. ابتدا خود عبارت باید از طریق یک مدل که شبکهای عصبی خواهد بود که کلمات را تجزیه میکند و درک زمینهای از رابطههای آنها را با یکدیگر تشخیص میدهد، تجزیه شود. بهمحص اینکه مدل ما متوجه شد که کاربر چه چیزی را توصیف میکند، هوش مصنوعی یک تصویر جدیدی را با استفاده از مجموعهای از GANها که شبکههای مولدی هستند، ترکیب میکند.
بهلطف تلاشهایی که در سالهای اخیر بهخوبی برای آموزش مدلهای فناوری یادگیری ماشین روی مجموعه تصویری با وضوح بالا و گسترشیافته با توضیحات متنی انجام شده است، هوش مصنوعیهای پیشرفته امروزی این توانایی را دارند تا تقریبا هر تصویری را ایجاد کنند. البته باید به این نکته هم توجه کنید که فرایندهای ایجاد بین هوش مصنوعیهای مختلف با یکدیگر تفاوت دارند.
اگر بخواهیم که برای این موضوع مثالی را مطرح کنیم، میتوانیم بگوییم که Imagen شرکت گوگل از یک Diffusion استفاده میکند که توانایی یادگیری تبدیل الگوی نقاط تصادفی به تصویر را دارد. این تصاویر در ابتدا با وضوح بسیار پایینی تولید میشوند و سپس بهتدریج وضوح آن افزایش خواهد یافت. از سویی دیگر، Pati AI شرکت گوگل، ابتدا مجموعهای از تصاویر را بهدنبالهای از ورودیهای کد، مانند قطعات پازل، تبدیل میکند و بعد از انجام تمام مراحل مورد نیاز، دستور متن داده شده به این ورودیهای کد ترجمه میشود و یک تصویر جدید ایجاد خواهد شد.
درحالیکه این سیستمها میتوانند تقریبا هرچیزی را که برای آنها توضیح داده شده است را بهتصویر بکشند، کاربر هیچ کنترلی را روی جنبههای خاص تصویر خروجی ندارد. مارک زاکربرگ، مدیرعامل فعلی متا، در وبلاگ شخصیاش در روز سهشنبه نوشت:
برای درک پتانسیل هوش مصنوعی برای پیشبر بیانهای خلاقانه، مردم باید بتوانند محتوایی را که یک سیستم شکل داده است را کنترل کنند.
مفهوم تحقیقاتی اکتشافی هوش مصنوعی این شرکت که Make-A-Scene نام دارد، تمام کارهای گفته شده را با ترکیب طرحهای ایجاد شده توط کاربر در تولید تصویر مبتنیبر متن خود انجام میدهد و در پایان یک تصویر 2048 در 2048 پیکسلی را تولید خواهد کرد. این ترکیب به کاربر اجازه میدهد تا نهتنها آنچه را که در تصویر میخواهد توصیف کند، بلکه ترکییب کلی تصویر را هم توصیف خواهد کرد. مارک زاکربرگ در مورد این محصول جدید متا میگوید:
این نشان میدهد که چگونه افراد میتوانند هم از متن و هم از نقاشیهای ساده برای انتقال دید خود به ویژگیهای بیشتر و با استفاده از انواع عناصر، فرمها، ترتیبات، عمق، ترکیببندیها و ساختارها استفاده کنند.
برای توسعه هرچه بیشتر این فناوری، شرکت متا نسخه آزمایشی Make-A-Scene خود را با هنرمندان برجسته هوش مصنوعی از جمله سوفیا کرسپو، اسکات ایتون، الکساندر ربن و رفیک آنادول بهاشتراک گذاشته است تا از این سیستم استفاده و بازخوردشان را اعلام کنند. درمورد اینکه چه زمانی این هوش مصنوعی دردسترس عمومی قرار خواهد گرفت، هنوز صحبتی انجام نشده است.