رونمایی Sora برای تبدیل متن به ویدیو از OpenAI

نویسنده taknetadmin بروزرسانی اسفند 7, 1402 124

اواخر هفته قبل، OpenAI سیستم هوش مصنوعی مولد جدید به نام Sora را معرفی کرد. این سیستم هوش مصنوعی مولد می تواند ویدیوهای کوتاه را از پیام‌های متنی تولید کند. Sora هنوز در دسترس عموم قرار ندارد؛ اما کیفیت بالای ویدیوهای نمونه منتشر شده تا به امروز، توجه بسیاری از افراد را به خود جلب کرده است.

ویدئوهای نمونه توسط OpenAI منتشر شده است که قابلیت sora را نشان می‌دهند. این فیلم‌های نمونه، تاریخ کالیفرنیا و دوکشتی دزدان دریایی در حال نبرد را به تصویر می‌کشند. به علت کیفیت بالای فیلم‌ها، پویایی صحنه‌ها، حرکات دوربین و ….، تشخیص اینکه به وسیله هوش مصنوعی ساخته می‌شوند، کار سختی است.

نحوه عملکرد سورا به چه صورت است؟

Sora ویژگی های ابزارهای تولید متن و تصویر را ترکیب می کند. ترانسفورماتورها که برای ترکیب متن و تصویر به کار میروند، نوعی شبکه عصبی هستند که اولین بار توسط گوگل در سال 2017 معرفی شدند. ترانسفورماتورها بیشتر به علت استفاده در مدل های زبان بزرگ مانند ChatGPT و Google Gemini به شهرت رسیده‌اند. سورا از ترانسفورماتور جهت رسیدگی به نحوه ارتباط فریم‌ها باهم استفاده می‌کند.

سورا اولین مدل هوش مصنوعی برای تبدیل متن به ویدیو نیست. مدل‌های قبل از قبیل Emu توسط Meta، Gen 2 by Runway، Stable Video Diffusion به وسیله Stability AI و به تازگی Lumiere توسط Google قبلاً برای تبدیل متن به ویدیو استفاده شده‌اند. Lumiere چند هفته پیش منتشر شد، ادعا کرد که نسبت به نسخه‌های قبلی خود، ویدیو‌های بهتری را تولید می‌کند. اما به نظر می‌رسد که سورا در برخی موارد از لومیر پیشرفته‌تر و قدرتمندتر است.

سورا می‌تواند ویدیوهایی با وضوح حداکثر 1920 × 1080 پیکسل را تولید کند. اما Lumiere قادر به تولید ویدیوهایی با کیفیت 512 × 512 پیکسل است. ویدیوهای Lumiere حدود ۵ ثانیه‌ای است؛ اما Sora ویدیو‌هایی ۶۰ ثانیه را می‌سازد. Lumiere نمی‌تواند ویدیوهای شامل چند عکس را بسازد. اما Sora قابلیت انجام این کار را دارد. طبق گزارش ها، سورا می‌تواند از تصاویر فیلم بسازد و عناصر مختلف ویدیو را با یکدیگر ترکیب کند. هر دو مدل هوش مصنوعی، ویدیو‌های کاملاً واقع‌گرایانه‌ای را تولید می‌کنند. ویدیو‌های سورا در مقایسه با Lumiere پویاتر به نظر می‌رسند.

در صورتیکه سورا با قیمت مناسب در دسترس عموم قرار بگیرد، ممکن است که استفاده از آن را به عنوان نرم‌افزار نمونه‌سازی برای تجسم‌ایده‌ها با هزینه بسیار کمتر شروع کنند. طبق اطلاعات به دست آمده از سورا می‌توان از آن برای ساخت ویدیو‌های کوتاه تبلیغاتی، آموزشی و سرگرمی استفاده کرد. نگرانی‌هایی در زمینه استفاده از سورا وجود دارد. با استفاده از سورا می‌توان ویدیو‌های جعلی و مشابه با نمونه واقعی را تولید کرد. به علاوه، نگرانی‌هایی در زمینه مسائل مرتبط با کپی رایت وجود دارد. ابزار‌های مولد هوش مصنوعی به داده‌های زیادی برای آموزش احتیاج دارند و OpenAI اینکه داده‌ها از کجا به دست آمده‌اند را افشا نکرده است. با وجود این نگرانی‌ها و مشکلات، انتظار نمی‌رود که تولید ویدیو با استفاده از هوش مصنوعی پیشرفته متوقف شود. قبل از اینکه سورا در دسترس همه افراد قرار بگیرد، باید اقدامات مربوط به ایمن‌سازی آن انجام شود.