...

/

إنشاء صور مُولّدة بالذكاء الاصطناعي باستخدام نماذج الانتشار

إنشاء صور مُولّدة بالذكاء الاصطناعي باستخدام نماذج الانتشار

تعرف على نماذج الانتشار وكيفية عملها.

سنغطي ما يلي...

في عالم الذكاء الاصطناعي التوليدي سريع التطور، حيث تتفوق نماذج مثل نماذج اللغات الكبيرة (LLMs) في توليد نصوص شبيهة بالنصوص البشرية، تُسلَّط الأضواء على نماذج الانتشار لإنشاء صور عالية الجودة. وقد برزت هذه النماذج كأدوات فعّالة، لا سيما في مهام إنشاء محتوى الوسائط المتعددة.

Press + to interact
Gemini generated an image against the prompt “generate an image depicting all four seasons in a tree”
Gemini generated an image against the prompt “generate an image depicting all four seasons in a tree”

في هذا الدرس، سنقوم بتحليل كيفية عمل نماذج الانتشار، وكيفية ارتباطها بـ LLMs، وكيفية تحويلها للصناعات، مع أمثلة واقعية من شركات مثل OpenAI وGoogle وNVIDIA.

ما هي نماذج الانتشار؟

تخيل أنك فنان تحاول إبداع تحفة فنية، ولكن بدلًا من البدء بلوحة بيضاء، تبدأ بلوحة فوضوية مليئة بخطوط عشوائية. شيئًا فشيئًا، تمحو الخطوط وتُحسّن الصورة حتى تظهر صورة واضحة ومفصلة. هكذا تعمل نماذج الانتشار - تبدأ بضوضاء عشوائية ثم تُحوّلها تدريجيًا إلى بيانات ذات معنى، كصورة أو حتى صوت.

Press + to interact

حقيقة ممتعة: كانت نماذج الانتشار مستوحاة في الأصل من كيفية تحرك الجسيمات في السائل، حيث ترتد بشكل عشوائي - ومن هنا جاء اسم الانتشار .

كيف تعمل نماذج الانتشار؟

في صميم نماذج الانتشار، تكمن عملية شيقة تدور حول تحويل الضوضاء العشوائية إلى بيانات ذات معنى. تتبع نماذج الانتشار عملية من مرحلتين تضمن نتائج عالية الجودة ومتماسكة.

Press + to interact
Forward and backward diffusion
Forward and backward diffusion

الانتشار الأمامي: في هذه المرحلة، يُضيف النموذج تدريجيًا تشويشًا إلى البيانات، كأن يُحوّل صورة واضحة إلى صورة ثابتة عشوائية. تُضيف كل خطوة تشويشًا إضافيًا، مما يُساعد النموذج على فهم مستويات الضوضاء المختلفة.

الانتشار العكسي: بعد تدهور البيانات بالكامل، يعكس النموذج العملية، ويزيل الضوضاء تدريجيًا لاستعادة البيانات الأصلية. يُعلّم هذا النموذج كيفية تحويل الضوضاء العشوائية إلى إخراج واضحة ومنظمة، مثل صورة أو صوت.

حقيقة ممتعة: إزالة الضوضاء ليست فريدة من نوعها بالنسبة للذكاء الاصطناعي - يستخدم علماء الفلك تقنيات إزالة الضوضاء لتوضيح الصور الضبابية للمجرات الملتقطة من التلسكوبات الفضائية!

هل نماذج الانتشار مرتبطة بـ LLMs؟

صُممت برامج ماجستير إدارة الأعمال، مثل GPT من OpenAI، بشكل أساسي لتوليد النصوص، مع أن النماذج الحديثة متعددة الوسائط (مثل GPT-4 أو LLaMA 3.2) بدأت بمعالجة الصور وأنواع البيانات الأخرى بشكل محدود. مع ذلك، عادةً ما لا تكون برامج ماجستير إدارة الأعمال مُجهزةً لتوليد أو معالجة البيانات غير النصية، مثل الصور أو مقاطع الفيديو أو الأصوات.

من ناحية أخرى، تتخصص نماذج الانتشار في توليد بيانات عالية الجودة غير نصية، مثل الصور، مما يجعلها مُكمّلة لنماذج التعلم العميق. تُستخدم هذه النماذج غالبًا في مهام مثل توليد الصور (مثل DALL•E ) وأشكال أخرى من توليف المحتوى تتجاوز النص، مما يجعلها شريكًا مثاليًا لنماذج التعلم العميق في إنشاء أنظمة متعددة الوسائط.

حقيقة ممتعة: اسم DALL•E هو مزيج مرح من الفنان الشهير سلفادور دالي والروبوت المتحرك WALL·E!

تخيل أنك تُنشئ ذكاءً اصطناعيًا لا يكتب سيناريو فيلم فحسب، بل يُنتج الفيلم المتحرك كاملًا! سيتولى ماجستير في القانون إدارة السيناريو، بينما يُنشئ نموذج التوزيع المرئيات والمؤثرات الصوتية، وربما حتى الموسيقى التصويرية. هذا المزيج من توليد النصوص والوسائط يُمكّن الذكاء الاصطناعي من إضفاء الحيوية على القصص الخيالية بطرق لم نشهدها من قبل.

لماذا تعتبر نماذج الانتشار مهمة لمهندسي الذكاء الاصطناعي التوليدي؟

بالنسبة لمهندسي الذكاء الاصطناعي، تُوفر نماذج الانتشار مجموعة أدوات فعّالة للتعامل مع مهام الوسائط المتعددة. وكما ذُكر، تُهيمن برامج ماجستير القانون على المهام النصية، إلا أن قدرات نماذج الانتشار متعددة الوسائط تُتيح إمكانياتٍ لإنشاء ليس فقط الكلمات، بل أيضًا الصور ومقاطع الفيديو والأصوات.

إذا كنت تُطوّر ذكاءً اصطناعيًا للترفيه أو الرعاية الصحية أو الأتمتة الصناعية، فإن نماذج الانتشار تُمكّنك من التوسع إلى ما هو أبعد من النصوص وصولًا إلى وسائط أكثر ثراءً وشمولية. ولأنها أكثر استقرارًا وأسهل تدريبًا من شبكات GAN، يُمكن للمهندسين تطوير أفكار جديدة بسرعة دون الحاجة إلى قضاء وقت طويل في استكشاف الأخطاء وإصلاحها.

مع استمرار تطور الذكاء الاصطناعي، فإن إتقان نماذج الانتشار سيمكن المهندسين والمبدعين على حد سواء من بناء أنظمة الذكاء الاصطناعي التي لا تفكر وتتحدث فحسب، بل يمكنها أيضًا الرؤية والاستماع والإبداع بطرق تنافس الإبداع البشري.

لغز

دعونا نختبر فهمك لعملية الانتشار من خلال اختبار قصير.

Q

Diffusion models are known for transforming random noise into coherent multimedia outputs through forward and backward diffusion. Which statement is true about their training and performance characteristics?

A)

Diffusion models can produce results in fewer steps than GANs.

B)

Diffusion models are ideal for parallelized training due to their structure.

C)

Diffusion models rely on a probabilistic framework for diverse and realistic outputs.

D)

Diffusion models require less computational power compared to LLMs for text generation.

هل تريد استكشاف المزيد؟

لتعلم المزيد عن نماذج الانتشار، يمكنك زيارة الدورة التدريبية المثيرة التالية: