دليل شامل لنماذج جوجل Veo 2 و Veo 3: ثورة توليد الفيديو بالذكاء الاصطناعي مع الصوت والصورة السينمائية
في عالم يتسارع فيه تطور الذكاء الاصطناعي، برزت جوجل كلاعب رئيسي في مجال توليد الفيديو، مقدمةً عائلة نماذج Veo التي تُعد من بين الأكثر تطورًا وقدرة في هذا المجال. تهدف هذه النماذج إلى تمكين المبدعين وصناع المحتوى من تحويل الأفكار النصية والصور إلى مقاطع فيديو حية وذات جودة عالية. ومع الإعلانات الأخيرة في مؤتمر المطورين Google I/O 2025 (الذي انعقد في 21 مايو 2025)، شهدنا تحديثات مهمة لنموذج Veo 2، والأهم من ذلك، الإطلاق الثوري لنموذج Veo 3 الذي يَعِد بإنهاء “العصر الصامت” لفيديوهات الذكاء الاصطناعي.
يقدم هذا الدليل نظرة شاملة على قدرات Veo 2 وتحديثاته، ويتعمق في الميزات غير المسبوقة لـ Veo 3، وكيفية الوصول إلى هذه التقنيات، والتكلفة المرتبطة بها، وتأثيرها المحتمل على مستقبل صناعة المحتوى.
ما هي عائلة نماذج Google Veo؟
تُمثل Veo جهود جوجل الرائدة في مجال تحويل النص والصورة إلى فيديو باستخدام الذكاء الاصطناعي. الهدف الأساسي هو إنشاء مقاطع فيديو قصيرة تتميز بالجودة العالية، والاتساق البصري، والقدرة على التحكم في المخرجات بناءً على أوامر المستخدم. تؤكد جوجل على التزامها بالنشر المسؤول لهذه التقنيات، حيث تتضمن النماذج علامة مائية رقمية غير مرئية تُعرف بـ SynthID للمساعدة في تحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، بالإضافة إلى فلاتر أمان لمنع إنشاء محتوى ضار.
Google Veo 2: وضع الأساسيات بقدرات متقدمة وتحديثات واعدة

كان Veo 2 يمثل بالفعل خطوة متقدمة في مجال توليد الفيديو، حيث قدم للمستخدمين القدرة على:
- توليد الفيديو من النصوص والصور: يمكن للمستخدمين إدخال وصف نصي أو صورة ثابتة كنقطة انطلاق لإنشاء مقطع فيديو.
- جودة مرئية جيدة: أشارت بعض التقييمات المبكرة (مثل تلك المتعلقة بواجهة Google AI Studio) إلى قدرة Veo 2 على إنتاج مقاطع فيديو بدقة 720p وبجودة أكثر سلاسة مقارنة ببعض النماذج الأخرى في حينه، وبأطوال تصل إلى حوالي 8 ثوانٍ في تلك الواجهات.
- أدوات تحكم أساسية: أتاحت بعض الواجهات التحكم في نسبة العرض إلى الارتفاع (16:9 أو 9:16) وتحديد عدد المقاطع المولدة.
التحديثات الجديدة في I/O 2025 لـ Veo 2: شهد مؤتمر المطورين الأخير الإعلان عن تحسينات جوهرية لـ Veo 2، مما يعزز بشكل كبير من قدراته الإبداعية والتحكم المتاح للمستخدمين:
- توليد الفيديو المستند إلى مرجع (Reference-powered video): أصبح بإمكان المستخدمين الآن تقديم صور مرجعية لشخصيات معينة، أو مشاهد، أو أغراض، أو حتى أنماط بصرية محددة. يقوم Veo 2 باستخدام هذه المراجع لضمان اتساق أفضل للشخصيات والمظهر العام للفيديو، مما يوفر درجة أعلى من التحكم الإبداعي.
- أدوات التحكم بالكاميرا (Camera controls): ميزة طال انتظارها تتيح للمستخدمين تحديد حركات الكاميرا بدقة، مثل لقطات التتبع، أو التحليق، أو الزووم، مما يضفي طابعًا سينمائيًا أكثر احترافية على المقاطع المولدة.
- التوسيع الخارجي (Outpainting): القدرة على توسيع إطار الفيديو الحالي، وإضافة المزيد من التفاصيل والمساحة البصرية حول المشهد الأصلي.
- إضافة وإزالة العناصر (Object add and remove): تتيح هذه الميزة للمستخدمين إضافة عناصر جديدة إلى الفيديو أو إزالة عناصر موجودة، مع الحفاظ على مظهر طبيعي وواقعي للمشهد دون تشويه.
وقد تم بالفعل استخدام Veo 2 في مشاريع إبداعية، مثل الفيلم القصير المؤثر “Kitsune” للمخرج هنري دوبريز، والذي أظهر الإمكانيات السردية للنموذج حتى قبل هذه التحديثات.
تجربتنا لإنشاء فيديو بواسطة Veo 2:
(مقهى المبرمجين):
“مقهى يختبىء بشخصيات كرتونية ظريفة تمثل أنواعًا مختلفة من ‘مهووسي الكمبيوتر’. مسجل أكوادًا بسرعة جنونية على لابتوب يصدر دخانًا خفيفًا، أخيرًا بحماس إلى فأرة الكمبيوتر به، وثالث ارتدى نظارات افتراضية ويتعلم في المقهى. ضحكات خافتة وأصوات لوحات سريعة. موسيقى جاز ومرحة.”
Google Veo 3: قفزة نوعية نحو الفيديو السينمائي الناطق!
الفيديو تم إنشائه بواسطة Google عبر Prompt متقن. ( اطلع عليه عبر صفحة Gemini لتوليد الفيديو)
يُعد الإعلان عن Veo 3 في مؤتمر I/O 2025 بمثابة اللحظة الفارقة التي انتظرها الكثيرون. فهذا النموذج لا يكتفي بتحسين جودة الصورة والتحكم، بل يقدم ميزة ثورية تُغير قواعد اللعبة:
إنهاء العصر الصامت: توليد الفيديو بالصوت الأصلي! لأول مرة، يستطيع نموذج Veo إنشاء مقاطع فيديو تتضمن مسارًا صوتيًا متزامنًا بالكامل. هذا يشمل:
- الأصوات البيئية: مثل ضوضاء حركة المرور في مشهد مدينة، أو أصوات الطبيعة كزقزقة الطيور في حديقة.
- المؤثرات الصوتية: أي أصوات مرتبطة بالأحداث في الفيديو.
- حوار الشخصيات: القدرة على توليد كلام منطوق للشخصيات في الفيديو، مع مزامنة دقيقة لحركة الشفاه. يصف ديميس حسابيس، الرئيس التنفيذي لـ Google DeepMind، هذه القفزة بأنها “نهاية العصر الصامت لتوليد الفيديو بالذكاء الاصطناعي”، وهي ميزة قد تكون “مُغيرة لقواعد اللعبة” ونقطة تحول في مجال إنشاء المحتوى.
فهم متقدم للغة السينما: يتفوق Veo 3 في فهم المصطلحات والأوامر السينمائية المعقدة. يمكنك أن تطلب منه “لقطة درون تحلق فوق منظر طبيعي عند الغروب” أو “مشهد تايم لابس لزهرة تتفتح”، وسيقوم بتنفيذها بدقة وفهم للسياق البصري المطلوب. كما يمكنه تحويل الأوصاف القصصية القصيرة إلى مقاطع فيديو حية تجسد السرد.
تحسينات في الواقعية، والفيزياء، والاتساق: يُظهر Veo 3 فهمًا أفضل لفيزياء العالم الحقيقي، مما ينعكس على حركة العناصر وتفاعلها بشكل أكثر واقعية. كما يوفر اتساقًا أفضل للشخصيات والأنماط البصرية عبر اللقطات المختلفة.
جودة بصرية عالية الدقة: يُشار إلى أن مخرجات Veo 3 تتمتع بجودة عالية الدقة.
مقارنة مع نماذج أخرى (مثل OpenAI Sora): يتميز Veo 3 بشكل واضح بقدرته على دمج الصوت، وهي ميزة تفتقر إليها نماذج منافسة مثل Sora (حتى تاريخ الإعلان). كما يُشار إلى أن Veo 3 يدعم السرد القصصي المعقد في الأوامر بشكل أفضل، ويتكامل مع أداة التحرير Flow.
كيفية الوصول والاستفادة من نماذج Veo
يتم توفير الوصول إلى قدرات Veo، وخاصة الميزات المتقدمة لـ Veo 3، من خلال عدة قنوات، مع التركيز على المستخدمين المحترفين والمشتركين في الخطط المتميزة:
- عبر تطبيق Gemini: يمكن لمشتركي خطة Google AI Ultra (بسعر 250 دولارًا شهريًا) في الولايات المتحدة حاليًا الوصول إلى Veo 3 مباشرةً عبر تطبيق Gemini. يمكنهم إدخال أوامر نصية أو تحميل صور لوصف الفيديو المطلوب، ليقوم Veo 3 بإنشاء الفيديو مع الصوتيات والمرئيات المطابقة.
- من خلال أداة Google Flow: تُعد أداة Google Flow الجديدة لصناعة الأفلام بالذكاء الاصطناعي منصة رئيسية للاستفادة من Veo. تم تصميم Flow خصيصًا للعمل مع Veo، ويحصل مشتركو Google AI Ultra على وصول مبكر لقدرات Veo 3 الكاملة (بما في ذلك توليد الصوت) داخل Flow. بينما يمكن لمشتركي Google AI Pro (بسعر 20 دولارًا شهريًا) أيضًا استخدام Flow مع قدرات Veo 2 المحدثة.
- لمستخدمي الشركات عبر Vertex AI: يُتاح Veo 3 أيضًا لمستخدمي الشركات والمطورين من خلال منصة Vertex AI من جوجل كلاود، مما يسمح بدمجه في تطبيقات ومهام سير عمل مخصصة.
- واجهات سابقة (مثل Google AI Studio لـ Veo 2): كما ذكرنا، أشارت بعض المصادر إلى واجهات مثل Google AI Studio كطريقة للوصول إلى إصدارات سابقة أو تجريبية من Veo 2، مع بعض القيود على الاستخدام. من المهم ملاحظة أن الوصول إلى أحدث الميزات والقدرات يتم الآن بشكل أساسي عبر الخطط المدفوعة والأدوات الأحدث.
التكلفة والاشتراكات: الوصول إلى الإمكانات الكاملة لـ Veo 3، بما في ذلك توليد الصوت والتحكم السينمائي المتقدم، مرتبط بشكل أساسي باشتراك Google AI Ultra الذي يبلغ 250 دولارًا أمريكيًا شهريًا. بينما يمكن الاستفادة من Veo 2 المحدث وبعض ميزات Flow عبر اشتراك Google AI Pro الأقل تكلفة.
اعرف المزيد عن الاشتراكات من مقالنا حول: خدمة Google AI Ultra الجديدة وهل تستحق سعرها للمبدعين؟
حالات الاستخدام والتطبيقات المحتملة لنماذج Veo
تفتح نماذج Veo، وخاصة Veo 3 بقدراته الصوتية والسينمائية، آفاقًا واسعة للمبدعين في مختلف المجالات:
- صناعة الأفلام والرسوم المتحركة: تبسيط وتسريع عمليات ما قبل الإنتاج، إنشاء مشاهد كاملة، وتوليد رسوم متحركة بشكل أسرع وأقل تكلفة.
- إنشاء المحتوى التسويقي والإعلاني: إنتاج مقاطع فيديو ترويجية جذابة ومخصصة بسرعة.
- التعليم والتدريب: تطوير مواد تعليمية مرئية تفاعلية وجذابة.
- المبدعون الأفراد ورواة القصص: تمكين أي شخص لديه فكرة من تحويلها إلى عمل مرئي احترافي.
المستقبل والاعتبارات الأخلاقية
تلتزم جوجل بتطوير الذكاء الاصطناعي بشكل مسؤول. ومع القوة المتزايدة لنماذج توليد الفيديو مثل Veo، تزداد أهمية الأدوات التي تساعد في تحديد المحتوى المُنشأ بواسطة الذكاء الاصطناعي مثل SynthID، بالإضافة إلى تطبيق فلاتر أمان قوية لمنع إساءة استخدام هذه التقنيات.
الخلاصة: Veo يرسم ملامح مستقبل إنتاج الفيديو بالذكاء الاصطناعي
يمثل كل من Veo 2 بتحديثاته الجديدة و Veo 3 بإمكانياته الثورية قفزات هائلة إلى الأمام في مجال توليد الفيديو بالذكاء الاصطناعي. فمن خلال توفير تحكم أكبر، وجودة أعلى، ولأول مرة، القدرة على دمج الصوت بشكل أصلي، تضع جوجل أدوات قوية بشكل لا يصدق بين يدي المبدعين. وبينما يتطلب الوصول إلى الإمكانات الكاملة لهذه النماذج استثمارًا ماليًا كبيرًا في الوقت الحالي، فإنها بلا شك ترسم ملامح مستقبل واعد ومثير لصناعة المحتوى المرئي، حيث يصبح الخيال هو الحد الوحيد تقريبًا.