تبدیل کردن متن به تصویر درحال‌حاضر یکی از فرایندهای الگوریتمی پرطرفداری است که با استفاده از Craiyon شرکت OpenAI یا همان DALL-E mini سابق و Imagen AIهای شرکت گوگل، کارهای بسیار عجیبی را می‌توان انجام داد.

حال، در روز سه‌شنبه شرکت متا اعلام کرد که یک موتور تولید تصویر با استفاده از هوش مصنوعی را نیز توسعه داده است و امیدوار است که با استفاده از این موتور به ساخت جهان‌های فراگیر در متاورس و ایجاد هنرهای دیجیتالی بسیار زیبا کمک کند.

سیستم‌های تبدیل متن به تصویر برای آن که بتوانند جمله‌ای مانند یک اسب در بیمارستان را به‌تصویر بکشند، باید کارهای بسیار زیادی را انجام دهند. ابتدا خود عبارت باید از طریق یک مدل که شبکه‌ای عصبی خواهد بود که کلمات را تجزیه می‌کند و درک زمینه‌ای از رابطه‌های آن‌ها را با یکدیگر تشخیص می‌دهد، تجزیه شود. به‌محص اینکه مدل ما متوجه شد که کاربر چه چیزی را توصیف می‌کند، هوش مصنوعی یک تصویر جدیدی را با استفاده از مجموعه‌ای از GANها که شبکه‌های مولدی هستند، ترکیب می‌کند.

به‌لطف تلاش‌هایی که در سال‌های اخیر به‌خوبی برای آموزش مدل‌های فناوری یادگیری ماشین روی مجموعه تصویری با وضوح بالا و گسترش‌یافته با توضیحات متنی انجام شده است، هوش مصنوعی‌های پیشرفته امروزی این توانایی را دارند تا تقریبا هر تصویری را ایجاد کنند. البته باید به این نکته هم توجه کنید که فرایندهای ایجاد بین هوش مصنوعی‌های مختلف با یکدیگر تفاوت دارند.

اگر بخواهیم که برای این موضوع مثالی را مطرح کنیم، می‌توانیم بگوییم که Imagen شرکت گوگل از یک Diffusion استفاده می‌کند که توانایی یادگیری تبدیل الگوی نقاط تصادفی به تصویر را دارد. این تصاویر در ابتدا با وضوح بسیار پایینی تولید می‌شوند و سپس به‌تدریج وضوح آن افزایش خواهد یافت. از سویی دیگر، Pati AI شرکت گوگل، ابتدا مجموعه‌ای از تصاویر را به‌دنباله‌ای از ورودی‌های کد، مانند قطعات پازل، تبدیل می‌کند و بعد از انجام تمام مراحل مورد نیاز، دستور متن داده شده به این ورودی‌های کد ترجمه می‌شود و یک تصویر جدید ایجاد خواهد شد.

درحالی‌که این سیستم‌ها می‌توانند تقریبا هرچیزی را که برای آن‌ها توضیح داده شده است را به‌تصویر بکشند، کاربر هیچ کنترلی را روی جنبه‌های خاص تصویر خروجی ندارد. مارک زاکربرگ، مدیرعامل فعلی متا، در وبلاگ شخصی‌اش در روز سه‌شنبه نوشت:

برای درک پتانسیل هوش مصنوعی برای پیشبر بیان‌های خلاقانه، مردم باید بتوانند محتوایی را که یک سیستم شکل داده است را کنترل کنند.

مفهوم تحقیقاتی اکتشافی هوش مصنوعی این شرکت که Make-A-Scene نام دارد، تمام کارهای گفته شده را با ترکیب طرح‌های ایجاد شده توط کاربر در تولید تصویر مبتنی‌بر متن خود انجام می‌دهد و در پایان یک تصویر 2048 در 2048 پیکسلی را تولید خواهد کرد. این ترکیب به کاربر اجازه می‌دهد تا نه‌تنها آنچه را که در تصویر می‌خواهد توصیف کند، بلکه ترکییب کلی تصویر را هم توصیف خواهد کرد. مارک زاکربرگ در مورد این محصول جدید متا می‌گوید:

این نشان می‌دهد که چگونه افراد می‌توانند هم از متن و هم از نقاشی‌های ساده برای انتقال دید خود به ویژگی‌های بیشتر و با استفاده از انواع عناصر، فرم‌ها، ترتیبات، عمق، ترکیب‌بندی‌ها و ساختارها استفاده کنند.

برای توسعه هرچه بیشتر این فناوری، شرکت متا نسخه آزمایشی Make-A-Scene خود را با هنرمندان برجسته هوش مصنوعی از جمله سوفیا کرسپو، اسکات ایتون، الکساندر ربن و رفیک آنادول به‌اشتراک گذاشته است تا از این سیستم استفاده و بازخوردشان را اعلام کنند. درمورد اینکه چه زمانی این هوش مصنوعی دردسترس عمومی قرار خواهد گرفت، هنوز صحبتی انجام نشده است.

منابع نوشته

engadget

برچسب‌ها

متا هوش مصنوعی

هوش مصنوعی Make-A-Scene متا تخیل انسان و رایانه را با هنوز الگوریتمی ترکیب می‌کند

دیدگاهتان را بنویسید لغو پاسخ