رونمایی Sora برای تبدیل متن به ویدیو از OpenAI
اواخر هفته قبل، OpenAI سیستم هوش مصنوعی مولد جدید به نام Sora را معرفی کرد. این سیستم هوش مصنوعی مولد می تواند ویدیوهای کوتاه را از پیامهای متنی تولید کند. Sora هنوز در دسترس عموم قرار ندارد؛ اما کیفیت بالای ویدیوهای نمونه منتشر شده تا به امروز، توجه بسیاری از افراد را به خود جلب کرده است.
ویدئوهای نمونه توسط OpenAI منتشر شده است که قابلیت sora را نشان میدهند. این فیلمهای نمونه، تاریخ کالیفرنیا و دوکشتی دزدان دریایی در حال نبرد را به تصویر میکشند. به علت کیفیت بالای فیلمها، پویایی صحنهها، حرکات دوربین و ….، تشخیص اینکه به وسیله هوش مصنوعی ساخته میشوند، کار سختی است.
نحوه عملکرد سورا به چه صورت است؟
Sora ویژگی های ابزارهای تولید متن و تصویر را ترکیب می کند. ترانسفورماتورها که برای ترکیب متن و تصویر به کار میروند، نوعی شبکه عصبی هستند که اولین بار توسط گوگل در سال 2017 معرفی شدند. ترانسفورماتورها بیشتر به علت استفاده در مدل های زبان بزرگ مانند ChatGPT و Google Gemini به شهرت رسیدهاند. سورا از ترانسفورماتور جهت رسیدگی به نحوه ارتباط فریمها باهم استفاده میکند.
سورا اولین مدل هوش مصنوعی برای تبدیل متن به ویدیو نیست. مدلهای قبل از قبیل Emu توسط Meta، Gen 2 by Runway، Stable Video Diffusion به وسیله Stability AI و به تازگی Lumiere توسط Google قبلاً برای تبدیل متن به ویدیو استفاده شدهاند. Lumiere چند هفته پیش منتشر شد، ادعا کرد که نسبت به نسخههای قبلی خود، ویدیوهای بهتری را تولید میکند. اما به نظر میرسد که سورا در برخی موارد از لومیر پیشرفتهتر و قدرتمندتر است.
سورا میتواند ویدیوهایی با وضوح حداکثر 1920 × 1080 پیکسل را تولید کند. اما Lumiere قادر به تولید ویدیوهایی با کیفیت 512 × 512 پیکسل است. ویدیوهای Lumiere حدود ۵ ثانیهای است؛ اما Sora ویدیوهایی ۶۰ ثانیه را میسازد. Lumiere نمیتواند ویدیوهای شامل چند عکس را بسازد. اما Sora قابلیت انجام این کار را دارد. طبق گزارش ها، سورا میتواند از تصاویر فیلم بسازد و عناصر مختلف ویدیو را با یکدیگر ترکیب کند. هر دو مدل هوش مصنوعی، ویدیوهای کاملاً واقعگرایانهای را تولید میکنند. ویدیوهای سورا در مقایسه با Lumiere پویاتر به نظر میرسند.
در صورتیکه سورا با قیمت مناسب در دسترس عموم قرار بگیرد، ممکن است که استفاده از آن را به عنوان نرمافزار نمونهسازی برای تجسمایدهها با هزینه بسیار کمتر شروع کنند. طبق اطلاعات به دست آمده از سورا میتوان از آن برای ساخت ویدیوهای کوتاه تبلیغاتی، آموزشی و سرگرمی استفاده کرد. نگرانیهایی در زمینه استفاده از سورا وجود دارد. با استفاده از سورا میتوان ویدیوهای جعلی و مشابه با نمونه واقعی را تولید کرد. به علاوه، نگرانیهایی در زمینه مسائل مرتبط با کپی رایت وجود دارد. ابزارهای مولد هوش مصنوعی به دادههای زیادی برای آموزش احتیاج دارند و OpenAI اینکه دادهها از کجا به دست آمدهاند را افشا نکرده است. با وجود این نگرانیها و مشکلات، انتظار نمیرود که تولید ویدیو با استفاده از هوش مصنوعی پیشرفته متوقف شود. قبل از اینکه سورا در دسترس همه افراد قرار بگیرد، باید اقدامات مربوط به ایمنسازی آن انجام شود.