DINOv3 هو نموذج متقدم للرؤية الحاسوبية ذاتية الإشراف، حيث يقدم العمود الفقري المجمد الخاص به ميزات صور عالية الدقة ويتفوق على الحلول المتخصصة عبر مهام التنبؤ الكثيف المعروفة.
قسم الأبحاث في شركة التكنولوجيا ميتا، الذي يطور تقنيات الذكاء الاصطناعي والواقع المعزز، قدمت ميتا AI DINOv3، وهو نموذج رؤية حاسوبية متطور وعام تم تدريبه باستخدام التعلم الذاتي الإشراف لتوليد ميزات بصرية عالية الجودة. للمرة الأولى، يتجاوز عمود الرؤية المجمد الواحد النماذج المتخصصة في مهام التنبؤ الكثيف المعتمدة المتعددة، بما في ذلك كشف الكائنات والتجزئة الدلالية.
تحقق DINOv3 هذه الأداء من خلال طرق SSL المتقدمة التي تزيل الحاجة إلى بيانات معنونة، مما يقلل من وقت التدريب ومتطلبات الموارد بينما يسمح للنموذج بالتوسع إلى 1.7 مليار صورة و7 مليارات معلمة. تجعل هذه الطريقة الخالية من التسمية النموذج مناسبًا للتطبيقات التي تكون فيها التعليقات التوضيحية محدودة أو مكلفة أو غير متاحة. على سبيل المثال، أظهرت هياكل DINOv3 المدربة مسبقًا على الصور الفضائية نتائج قوية في المهام اللاحقة مثل تقدير ارتفاع السقف.
من المتوقع أن يعزز النموذج التطبيقات الحالية ويمكّن من تطبيقات جديدة عبر قطاعات مثل الرعاية الصحية، ورصد البيئة، والمركبات المستقلة، والبيع بالتجزئة، والتصنيع، مما يوفر دقة وكفاءة محسّنة في الفهم البصري على نطاق واسع.
يتم إصدار DINOv3 مع مجموعة كاملة من الهياكل الأساسية مفتوحة المصدر بموجب ترخيص تجاري، بما في ذلك هيكل أساسي مخصص للأقمار الصناعية تم تدريبه على صور MAXAR. كما يتم مشاركة مجموعة فرعية من رؤوس التقييم في المنبع للسماح للباحثين بإعادة إنتاج النتائج وتوسيعها. تم توفير دفاتر ملاحظات عينة ووثائق تفصيلية لمساعدة المجتمع على البدء في العمل مع DINOv3 على الفور.
DINOv3: فتح التطبيقات ذات التأثير العالي من خلال التعلم الذاتي المشرف
وفقًا لـ Meta AI، يمثل DINOv3 تقدمًا ملحوظًا في التعلم الذاتي الخاضع للإشراف (SSL)، حيث يُظهر لأول مرة أن نماذج SSL يمكن أن تتجاوز أداء النماذج الخاضعة للإشراف الضعيف عبر مجموعة واسعة من المهام. بينما حققت النسخ السابقة من DINO نتائج قوية في مهام التنبؤ الكثيف مثل التقسيم وتقدير العمق الأحادي، يبني DINOv3 على هذه الأساسيات ويحقق مستويات أعلى من الأداء.
تقدم DINOv3 خوارزمية DINO الأصلية من خلال القضاء على الحاجة إلى إدخال بيانات وصفية، واستخدام موارد تدريب أقل من الأساليب السابقة، مع الاستمرار في إنتاج نماذج رؤية أساسية عالية الأداء. تمكّن التحسينات في DINOv3 من تحقيق نتائج متطورة في المهام اللاحقة مثل كشف الأشياء، حتى عندما تظل أوزان النموذج ثابتة، مما يزيل الحاجة إلى التخصيص الدقيق المحدد للمهام ويسمح بتطبيقات أكثر تنوعًا وكفاءة.
نظرًا لأن منهجية DINO غير مرتبطة بنوع صورة معين، يمكن تطبيقها عبر مجالات متنوعة حيث تكون عملية التسمية مكلفة أو غير عملية. قد استخدمت النسخ السابقة، مثل DINOv2، كميات كبيرة من البيانات غير المسمّاة للتطبيقات الطبية، بما في ذلك علم الأنسجة، والتنظير الداخلي، والتصوير. بالنسبة للصور الفضائية والجوية، حيث تجعل كمية البيانات وتعقيدها من التسمية اليدوية أمرًا غير ممكن، يسمح DINOv3 بتدريب نموذج عمود فقري واحد قابل للتطبيق عبر عدة مصادر فضائية، مما يدعم حالات استخدام أوسع في مراقبة البيئة، وتخطيط المدن، والاستجابة للكوارث.
DINOv3 يظهر بالفعل تأثيرًا عمليًا. معهد الموارد العالمية (WRI) يستخدم النموذج لمراقبة إزالة الغابات وتوجيه جهود الاستعادة، مما يمكّن المجموعات المحلية من حماية النظم البيئية بشكل أفضل. من خلال تحليل صور الأقمار الصناعية لاكتشاف فقدان الأشجار وتغييرات استخدام الأراضي، يُحسن DINOv3 دقة التحقق من تمويل المناخ، مما يقلل من تكاليف المعاملات ويُسرع التمويل للمشاريع الصغيرة والمحلية. في إحدى الحالات، استخدام DINOv3 المدرب على صور الأقمار الصناعية والهوائية خفض متوسط الخطأ في قياس ارتفاع قبة الأشجار في منطقة من كينيا من 4.1 متر إلى 1.2 متر، مما سمح لـ WRI بتوسيع الدعم لآلاف المزارعين ومبادرات الحفظ بشكل أكثر فعالية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ميتا تقدم DINOv3: نموذج رؤية ذاتية الإشراف متقدم لتحليل بصري عالي الدقة وقابل للتوسع
باختصار
DINOv3 هو نموذج متقدم للرؤية الحاسوبية ذاتية الإشراف، حيث يقدم العمود الفقري المجمد الخاص به ميزات صور عالية الدقة ويتفوق على الحلول المتخصصة عبر مهام التنبؤ الكثيف المعروفة.
قسم الأبحاث في شركة التكنولوجيا ميتا، الذي يطور تقنيات الذكاء الاصطناعي والواقع المعزز، قدمت ميتا AI DINOv3، وهو نموذج رؤية حاسوبية متطور وعام تم تدريبه باستخدام التعلم الذاتي الإشراف لتوليد ميزات بصرية عالية الجودة. للمرة الأولى، يتجاوز عمود الرؤية المجمد الواحد النماذج المتخصصة في مهام التنبؤ الكثيف المعتمدة المتعددة، بما في ذلك كشف الكائنات والتجزئة الدلالية.
تحقق DINOv3 هذه الأداء من خلال طرق SSL المتقدمة التي تزيل الحاجة إلى بيانات معنونة، مما يقلل من وقت التدريب ومتطلبات الموارد بينما يسمح للنموذج بالتوسع إلى 1.7 مليار صورة و7 مليارات معلمة. تجعل هذه الطريقة الخالية من التسمية النموذج مناسبًا للتطبيقات التي تكون فيها التعليقات التوضيحية محدودة أو مكلفة أو غير متاحة. على سبيل المثال، أظهرت هياكل DINOv3 المدربة مسبقًا على الصور الفضائية نتائج قوية في المهام اللاحقة مثل تقدير ارتفاع السقف.
من المتوقع أن يعزز النموذج التطبيقات الحالية ويمكّن من تطبيقات جديدة عبر قطاعات مثل الرعاية الصحية، ورصد البيئة، والمركبات المستقلة، والبيع بالتجزئة، والتصنيع، مما يوفر دقة وكفاءة محسّنة في الفهم البصري على نطاق واسع.
يتم إصدار DINOv3 مع مجموعة كاملة من الهياكل الأساسية مفتوحة المصدر بموجب ترخيص تجاري، بما في ذلك هيكل أساسي مخصص للأقمار الصناعية تم تدريبه على صور MAXAR. كما يتم مشاركة مجموعة فرعية من رؤوس التقييم في المنبع للسماح للباحثين بإعادة إنتاج النتائج وتوسيعها. تم توفير دفاتر ملاحظات عينة ووثائق تفصيلية لمساعدة المجتمع على البدء في العمل مع DINOv3 على الفور.
DINOv3: فتح التطبيقات ذات التأثير العالي من خلال التعلم الذاتي المشرف
وفقًا لـ Meta AI، يمثل DINOv3 تقدمًا ملحوظًا في التعلم الذاتي الخاضع للإشراف (SSL)، حيث يُظهر لأول مرة أن نماذج SSL يمكن أن تتجاوز أداء النماذج الخاضعة للإشراف الضعيف عبر مجموعة واسعة من المهام. بينما حققت النسخ السابقة من DINO نتائج قوية في مهام التنبؤ الكثيف مثل التقسيم وتقدير العمق الأحادي، يبني DINOv3 على هذه الأساسيات ويحقق مستويات أعلى من الأداء.
تقدم DINOv3 خوارزمية DINO الأصلية من خلال القضاء على الحاجة إلى إدخال بيانات وصفية، واستخدام موارد تدريب أقل من الأساليب السابقة، مع الاستمرار في إنتاج نماذج رؤية أساسية عالية الأداء. تمكّن التحسينات في DINOv3 من تحقيق نتائج متطورة في المهام اللاحقة مثل كشف الأشياء، حتى عندما تظل أوزان النموذج ثابتة، مما يزيل الحاجة إلى التخصيص الدقيق المحدد للمهام ويسمح بتطبيقات أكثر تنوعًا وكفاءة.
نظرًا لأن منهجية DINO غير مرتبطة بنوع صورة معين، يمكن تطبيقها عبر مجالات متنوعة حيث تكون عملية التسمية مكلفة أو غير عملية. قد استخدمت النسخ السابقة، مثل DINOv2، كميات كبيرة من البيانات غير المسمّاة للتطبيقات الطبية، بما في ذلك علم الأنسجة، والتنظير الداخلي، والتصوير. بالنسبة للصور الفضائية والجوية، حيث تجعل كمية البيانات وتعقيدها من التسمية اليدوية أمرًا غير ممكن، يسمح DINOv3 بتدريب نموذج عمود فقري واحد قابل للتطبيق عبر عدة مصادر فضائية، مما يدعم حالات استخدام أوسع في مراقبة البيئة، وتخطيط المدن، والاستجابة للكوارث.
DINOv3 يظهر بالفعل تأثيرًا عمليًا. معهد الموارد العالمية (WRI) يستخدم النموذج لمراقبة إزالة الغابات وتوجيه جهود الاستعادة، مما يمكّن المجموعات المحلية من حماية النظم البيئية بشكل أفضل. من خلال تحليل صور الأقمار الصناعية لاكتشاف فقدان الأشجار وتغييرات استخدام الأراضي، يُحسن DINOv3 دقة التحقق من تمويل المناخ، مما يقلل من تكاليف المعاملات ويُسرع التمويل للمشاريع الصغيرة والمحلية. في إحدى الحالات، استخدام DINOv3 المدرب على صور الأقمار الصناعية والهوائية خفض متوسط الخطأ في قياس ارتفاع قبة الأشجار في منطقة من كينيا من 4.1 متر إلى 1.2 متر، مما سمح لـ WRI بتوسيع الدعم لآلاف المزارعين ومبادرات الحفظ بشكل أكثر فعالية.