نقدم معاينة بحثية لتدفق الذات: نهج قابل للتوسع لتدريب نماذج توليدية متعددة الوسائط. يتطلب التوليد متعدد الوسائط التعلم من البداية إلى النهاية عبر الوسائط: الصورة، الفيديو، الصوت، النص - دون أن يكون مقيدا بنماذج خارجية لتعلم التمثيل. يعالج التدفق الذاتي هذا من خلال مطابقة التدفق الذاتي الإشراف التي تتوسع بكفاءة عبر الأنماط المختلفة. النتائج: • تقارب أسرع يصل إلى 2.8 ضعف عبر الوسائط. • تحسين الاتساق الزمني في الفيديو • عرض النصوص والطباعة الأكثر حدة هذا هو البحث الأساسي في طريقنا نحو الذكاء البصري متعدد الوسائط.
يحسن التدفق الذاتي الاتساق الزمني في توليد الفيديو. نموذج متعدد الوسائط بمعيار 4B مدرب على فيديوهات 6M.
طباعة وعرض نص أنظف. نموذج متعدد الوسائط بمعيار 4B مدرب على صور 200M.
توليد مشترك للفيديو والصوت من نموذج واحد (تشغيل الصوت) نموذج متعدد الوسائط 4B مدرب على أزواج صوت-فيديو 2M.
يفتح تدفق الذات طريقا نحو نماذج العالم: دمج قابلية التوسع البصري مع التجريد الدلالي للتخطيط والفهم. إليك توقع الفعل من نموذج معاملي 675M.
‏‎113‏