Meta представляє DINOv3: вдосконалена модель самоорганізованого зору для масштабного, високоточного візуального аналізу

Коротко

DINOv3 є сучасною моделлю комп'ютерного зору з самонаглядом, чий єдиний заморожений каркас забезпечує високу роздільну здатність зображень та перевершує спеціалізовані рішення у багатьох встановлених завданнях щільного прогнозування.

Meta представляє DINOv3: прогресивна модель самонавчання з комп'ютерним зором, що перевершує спеціалізовані рішення у завданнях щільного прогнозування

Дослідницький підрозділ технологічної компанії Meta, яка розробляє технології штучного інтелекту та доповненої реальності, Meta AI представила DINOv3, сучасну загальносистемну модель комп'ютерного зору, навчена за допомогою самонавчання (SSL) для генерації високоякісних візуальних ознак. Вперше єдина заморожена основа зору перевершує спеціалізовані моделі за кількома встановленими завданнями щільного прогнозування, включаючи виявлення об'єктів і семантичну сегментацію.

DINOv3 досягає такої продуктивності завдяки передовим методам SSL, які усувають необхідність у мічених даних, зменшуючи час навчання та вимоги до ресурсів, одночасно дозволяючи моделі масштабуватися до 1,7 мільярда зображень і 7 мільярдів параметрів. Цей безмітковий підхід робить модель придатною для застосувань, де анотації є обмеженими, дорогими або недоступними. Наприклад, базові моделі DINOv3, попередньо навчений на супутникових зображеннях, продемонстрували сильні результати в наступних завданнях, таких як оцінка висоти покриття.

Модель, як очікується, покращить поточні застосування та дозволить нові в таких секторах, як охорона здоров'я, моніторинг навколишнього середовища, автономні транспортні засоби, роздрібна торгівля та виробництво, пропонуючи покращену точність та ефективність у великомасштабному візуальному розумінні.

DINOv3 випускається з повним набором відкритих базових моделей під комерційною ліцензією, включаючи базову модель, орієнтовану на супутники, навчена на зображеннях MAXAR. Також надається підмножина головок оцінки для подальшого використання, щоб дослідники могли відтворити та розширити результати. Наведено приклади нотаток та детальну документацію, щоб допомогти спільноті почати працювати з DINOv3 негайно.

DINOv3: Розблокування високоефективних застосувань через самонавчальне навчання

Згідно з Meta AI, DINOv3 є помітним досягненням у сфері самоорганізованого навчання (SSL), вперше показуючи, що моделі SSL можуть перевершувати результати моделей з слабким наглядом у широкому спектрі завдань. У той час як попередні версії DINO встановили сильні результати в завданнях щільного прогнозування, таких як сегментація та монокулярна оцінка глибини, DINOv3 базується на цій основі та досягає ще вищих рівнів продуктивності.

DINOv3: Розблокування високоефективних додатків через самоосвітнє навчання

DINOv3 вдосконалює оригінальний алгоритм DINO, усуваючи необхідність у введенні метаданих, використовуючи менше обчислювальних ресурсів для навчання, ніж попередні підходи, при цьому забезпечуючи високопродуктивні моделі візуального фундаменту. Поліпшення в DINOv3 дозволяють досягати найсучасніших результатів у виконанні завдань, таких як виявлення об'єктів, навіть коли ваги моделі залишаються замороженими, усуваючи необхідність у спеціальному налаштуванні для конкретних завдань і дозволяючи більш універсальне та ефективне застосування.

Оскільки методологія DINO не прив'язана до жодного конкретного типу зображення, її можна застосовувати в різних сферах, де маркування є дорогим або непрактичним. Раніші версії, такі як DINOv2, використовували великі обсяги немаркованих даних для медичних застосувань, включаючи гістологію, ендоскопію та візуалізацію. Для супутникових та аерофотозображень, де обсяги даних та складність роблять ручне маркування неможливим, DINOv3 дозволяє навчати одну базову модель, яка може застосовуватися до кількох супутникових джерел, що підтримує ширші варіанти використання в екологічному моніторингу, міському плануванні та реагуванні на катастрофи.

DINOv3 вже демонструє практичний вплив. Світовий ресурсний інститут (WRI) використовує модель для моніторингу вирубки лісів і спрямування відновлювальних зусиль, що дозволяє місцевим групам краще захищати екосистеми. Аналізуючи супутникові зображення для виявлення втрат дерев і змін у використанні земель, DINOv3 покращує точність верифікації фінансування клімату, знижуючи транзакційні витрати та прискорюючи фінансування малих місцевих проектів. У одному випадку використання DINOv3, навченої на супутникових та аерофотознімках, зменшило середню помилку в вимірюванні висоти крони дерев у регіоні Кенії з 4,1 метра до 1,2 метра, що дозволило WRI ефективніше масштабувати підтримку тисячам фермерів та консерваційних ініціатив.

VSN-3.76%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити