كل ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي

كل ما يلزمك معرفته عن نموذج MAI Image 2 لتوليد الصور بالذكاء الاصطناعي من مايكروسوفت

كل ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي من شركة مايكروسوفت. لقد أصبح توليد الصور بالذكاء الاصطناعي أمرًا روتينيًا في حياة ملايين البشر، وتبذل شركات التكنولوجيا الرائدة جهودًا مضنية، باستثمارات هائلة، لتحسين نماذجها من أجل تعزيز مفهوم الترابط الذي يجمع الانسان بتكنولوجيا الذكاء الاصطناعي في فضاء واحد، بهدف تمكينه أي شخص من إطلاق العنان لخياله والوصول إلى نتائج إبداعية غير مسبوقة دون عناء، وبأقل مستوى من الخبرة.

ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي

حتى قبل ازدهار تكنولوجيا الذكاء الاصطناعي بشكل صارخ، لطالما أُتيحت لنا الفرصة لاستخدام منصات ذكية متنوعة من أجل توليد أنواع مختلفة من المحتوى المرئي والنصي. لكن مع ولادة النماذج الذكية المُدرّبة على كميات هائلة من الخوارزميات، بدأت القصة على شكل مطالبات نصية قصيرة نصف فيها ما نحتاجه إلى روبوتات الدردشة المختلفة لتتولى هي بالنيابة عنا توليد المحتوى الذي نحتاجه. ونظرًا لطبيعة هذه التكنولوجيا والوتيرة المتنامية بسرعة هائلة في انتشارها، فلقد ساهم ذلك في زيادة تنوعها وتطورها.

اقرأ أيضًا في مقال سابق بعنوان كيف تعرف إذا كانت لديك وحدة معالجة عصبية NPU في جهازك في حال كنت تخطط للتعامل مع أدوات تطوير وتدريب وتشغيل الذكاء الاصطناعي محليًا على جهازك بشكل أفضل.

الآن، أصبح بإمكاننا توليد محتوى مُعقد للغاية في لحظات بسيطة، بما في ذلك الصور والفيديوهات، وحتى الأكواد البرمجية. ولكن عندما يتعلق بتوليد الصور تحديدًا، فقد يكون نموذج DALL-E 3 هو أشهر نماذج الذكاء الاصطناعي في الوقت الحالي. لكنه ليس الوحيد بكل تأكيد، فلدينا أيضًا Nano Banana 2 المدمج في روبوت Gemini. كما أن هناك من يُراهن على جودة ودقة نتائج نموذج Midjourney. والآن، حان الوقت لدخول منافس قد يكون أكثر قوة من الجميع، فإليك كل ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي في نسخته الثانية من شركة مايكروسوفت.

■ ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي

نتائج نموذج MAI Image 2 من مايكروسوفت في توليد الصور االبسيطة

نعتذر عن طول المقدمة. لكنها مُجرد تمهيدًا لحدث في غاية الأهمية. فلقد أطلقت مايكروسوفت للتو نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي، وهو الإصدار الثاني الذي يأتي بعد خمسة أشهر فقط من إطلاق النسخة الأولى منه. وتقول شركة مايكروسوفت أن النسخة الحالية خضعت إلى التدريب بالتعاون مع مصورين ومصممين ومبدعين بصريين. من أهم مزاياها، زيادة قدرتها على توليد المشاهد المعقدة.

قد يساعد ذلك المستخدمين في تقديم مطالبات نصية أكثر دقة للحصول على نتائج أكثر واقعية وتفاصيل أكثر دقة. تسعى مايكروسوفت إلى الوقت ندًا بند أمام كلً من DALL-E و Nano Banana 2. في الواقع، تطمح مايكروسوفت أن تكون واحدة من أبرز الشركات في قطاع الذكاء الاصطناعي. لكن لتحقيق ذلك، يجب أن تتفوق على منافسين أشد خطورة في المجال، وبهذا نقصد Google و OpenAI.

الجانب السلبي الوحيد في نموذج MAI-Image-2 أنه غير متاح على نطاق واسع بعد. لذلك، لا يُمكن استخدامه في جميع البلدان بعد إلا بواسطة VPN أو عبر الرابط الرسمي الذي توفره مايكروسوفت.

■ كيف يختلف MAI-Image-2 عن Nano Banana 2؟

نتائج نموذج Nano Banana 2 في توليد الصور البسيطة

سنحاول أن نشرح لكم فيما يلي عملية توليد الصور التلقائية للمطالبات المعقدة باستخدام نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي من مايكروسوفت، بما في ذلك جودة الصورة والوقت المستغرق والتفاصيل الدقيقة التي يوفرها لنا هذا النموذج.

هناك عدة جوانب يجب أخذها في الاعتبار عند تقييم أي نموذج مُصمم لتوليد الصور، وهذا يستند إلى حقيقة أن جميع النماذج الشائعة قادرة بالفعل على توليد نتائج مذهلة في معظم الأحيان. ووفقًا لمايكروسوفت، فإن هذه مجرد البداية، إذ من المتوقع أن تشهد تكنولوجيا توليد الصور بالذكاء الاصطناعي طفرة غير مسبوقة في السنوات القليلة القادمة. دعني أوضح لك الآن بعض التفاصيل التي تحتاج لمعرفتها أثناء استخدامك لهذا النموذج

أولاً – سرعة الاستجابة: عند استخدام منصات توليد الصور بالذكاء الاصطناعي، يُعدّ الوقت المُستغرق في عملية معالجة الأمر وتنفيذه عاملًا حاسمًا، خاصةً إذا كنا نعمل على مشروعات متعددة في وقت حرج أو ضيّق للغاية. من حسن الحظ، يتيح DALL-E المدمج في ChatGPT توليد الصور في غضون 10 ثوان تقريبًا، بينما يستغرق نموذج MAI-Image-2 ما يتراوح بين 25 إلى 35 ثانية من أجل الرد على نفس الطلب. وكلما اشتد تعقيد الصورة، كلما استغرق وقتًا أطول. من المُرجح أيضًا أن تطول أوقات المعالجة خلال فترات الذروة نتيجة الضغط على الخادم.

ثانيًا – دقة الصورة ومظهرها: صراحةً، جميع مولدات الصور توفر نتائج ممتازة بعد المعالجة، مع مستوى عالِ جدًا من التفاصيل. لكن بالنسبة لدقة أبعاد الصورة النهائية، فيتفوق Gemini مع Nano Banana 2 على جميع الحلول الأخرى بفضل صورتهما البانورامية المتوفرة بدقة أبعاد أكبر بعد المعالجة.

ثالثًا – الواقعية: أما بالنسبة للنتائج الواقعية، أي الأقرب إلى الحقيقة، فلا يزال Nano Banana 2 هو الذي يقدم صورًا أكثر واقعية مقارنةً بنموذج DALL-E أو نموذج MAI-Image-2 من مايكروسوفت. صحيح نموذج مايكروسوفت الأحدث يوفر نتائج دقيقة إلى حد كبير، لكنها أقرب إلى الإبداع المصطنع (اصطناعي) منه إلى الحقيقة.

رابعًا – التكيف مع التعليمات المُحددة: لقد لاحظت أن جميع المنصات تتكيف بشكل رائع مع التعليمات التي أدخلناها. فكان الهدف الرئيسي هو إنشاء صورة تُعبّر عن ماهية موقع Hi4wirless المُتخصص في حلول الشبكات والانترنت. والنتيجة كانت جيدة على مختلف المنصات. لكن كما أشرت في جزئية "الواقعية"، يظل Nano Banana 2 هو الأكثر ذكاءً. السبب هو أنه عند إدخال تعليمات باللغة العربية إلى نموذج MAI-Image-2، قام بتوليد كلمات عربية غير مفهومة، وهو ما يعكس هلوسته في تحديد المُدخلات بدقة، هذا فقط لأنني ذكرت له كلمة "متخصص في التقنية باللغة العربية".

خامسًا – المظهر الجمالي: أعتقد أن عمق المجال والجماليات ومستوى التفاصيل هي إحدى الجوانب التي يتفوق فيها نموذج MAI-Image-2 بكل وضوح. فعند استخدامكم لنموذج مايكروسوفت، ستلاحظون أنه قادر على توليد الصورة بنسبة إضافية من عمق المجال ودقة وجمال التفاصيل.

سادسًا – أصالة الصورة: مرة أخرى وجدنا أن نموذج MAI-Image-2 قادر على تقديم صورة أصيلة للغاية تعكس طبيعة المطالبات المُفصّلة بدقة. ومع ذلك، هذا لا يعني أن النماذج الأخرى لا تستطيع تقديم نتائج ممتازة من حيث أصالة الصورة أيضًا.

اقرأ أيضًا في مقال منفصل بعنوان أفضل مساعد ذكاء اصطناعي مجاني على الكمبيوتر أفضل روبوتات الدردشة الآلية التي تُستخدم لتعزيز الإنتاجية وتوفير الوقت المستغرق في تنفيذ المهام والاستجابة للمطالبات الدقيقة مهما كانت معقدة.

■ ولكن ماذا لو أردنا صورة شديدة التعقيد؟

نتيجة نموذج MAI Image 2 من مايكروسوفت في توليد الصور المعقدة

لاستكشاف القدرة الحقيقية لنموذج MAI-Image-2، والفرق بينه وبين الحلول المنافسة، قمنا بطلب إنشاء صورة مُعقدة للغاية تحتوي على هذه التعليمات:

مشهد داخلي فائق الدقة لمكتبة مهجورة على الطراز الوحشي، استعادت الطبيعة جزءًا منها، التُقط خلال ساعات الصباح. تهيمن هياكل خرسانية ضخمة مكشوفة على المكان، تظهر عليها علامات التقادم بوضوح، من تشققات ونمو الطحالب وبقع الرطوبة.

مع ألواح زجاجية ممتدة من الأرض إلى السقف متصدعة ومغطاة بالغبار، مما يسمح لأشعة الشمس باختراق جزيئات الغبار وحبوب اللقاح والرطوبة العالقة في الهواء. تنمو نباتات كثيفة - سرخس، لبلاب، أشجار صغيرة - بشكل طبيعي بين البلاط المكسور ورفوف الكتب المنهارة. مع التركيز البالغ بواقعية المواد: عيوب دقيقة في الخرسانة (حبيبات ناعمة، حواف متشققة، تدرجات لونية خفيفة)، تشتت الضوء بدقة فيزيائية عبر أوراق شفافة، وخرائط خشونة متفاوتة بين الأسطح الرطبة والجافة.

كتب متناثرة على الأرض بصفحات ملتفة وحبر باهت وآثار تلف ناتجة عن الماء، حروفها مقروءة جزئيًا ولكنها متدهورة. تفاعل بيئي ديناميكي: نسمة عليلة تحرك برفق أغصانًا متدلية وقطعًا من الورق معلقة في الهواء. تولّد أشعة الضوء أنماطًا معقدة من التظليل والانعكاسات على أشكال هندسية غير منتظمة. وتظهر الانعكاسات في برك الماء الصغيرة تشوهًا طفيفًا وانحرافًا لونيًا.

التقاط الصورة بكاميرا كاملة الإطار، وعدسة 24 مم، ومنظور منخفض الزاوية لتضخيم الحجم، وعمق مجال كبير (f/11)، ومسافة تركيز فائقة تضمن وضوحًا من حطام المقدمة إلى تفاصيل الخلفية المعمارية. إضاءة شاملة، وظلال مُتتبعة بالأشعة، وتقنية العرض الفيزيائي (PBR)، ونطاق ديناميكي عالٍ، وتدرج لوني سينمائي بألوان خضراء هادئة ودرجات دافئة. لا وجود للبشر، ولا مظهر مُولّد بالحاسوب - واقعية فوتوغرافية مُطلقة، دقة 16K، ودقة نسيج فائقة، وألوان طبيعية، وعيوب عدسة دقيقة (تظليل، وتشوه طفيف، وضوضاء مستشعر طفيفة).

نتيجة نموذج NANO Banana 2 في توليد الصور المعقدة

لقد كانت نتائج Nano Banana 2 أفضل من بفضل دعمه للوضع البانورامي، مما يجعل الصورة أكثر واقعية. مع MAI-Image-2، تحصل على عُمق مجال أكثر، ودقة أكبر في الاستجابة للتفاصيل الخاصة بالسطوع والتباين. للأسف نموذج DALL-E كان مُصطنعًا بشكل مُفرط، مما يُفسد جمال وواقعية الصورة.

الخاتمة | في ختام مقالة كل ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي، وإذا أخذنا كل ما ذكرناه بالأعلى في الاعتبار، فإنني أعتقد أن حل جوجل لا يزال متفوقًا على المنافسين، على الأقل نسبيًا. فمن الصعب تحديد فائز وحيد في هذه المنافسة، إذ تختلف الآراء وفقًا لمنظور كل شخص. فبالنسبة لي، أعتقد أن نموذج مايكروسوفت أكثر دقة في الاستجابة للتفاصيل المعقدة، إلا إنها يفتقر لجودة ودقة المشهد البانورامي الذي يوفره نموذج Banana 2. على كل حال، يجب أن تقوم بتجربته بنفسك لاختبار النتائج وتحديد أيهما أفضل لمشروعك.

قبل أن تغادر، يجب أن تعرف كيفية إنشاء موقع إلكتروني باستخدام الذكاء الاصطناعي إذا كنت تريد أن تبدأ رحلتك في التدوين وصناعة المحتوى والوصول إلى قاعدة جماهرية ضخمة في فترة زمنية قياسية.

************************

هاي فور تك

كل ما يلزمك معرفته عن نموذج MAI-Image-2 لتوليد الصور بالذكاء الاصطناعي