WildDet3D – 3D-objektdeteksjon fra ett enkelt bilde

WildDet3D – 3D-objektdeteksjon fra ett enkelt bilde

Allen Institute for AI har sluppet noe som kan bli et
viktig byggesteinn for fremtidens romlige AI.
WildDet3D gjenkjenner og lokaliserer objekter i 3D
fra ett enkelt bilde – og aksepterer instruksjoner
på tre ulike måter.

Hva gjør den annerledes?

De fleste 3D-deteksjonssystemer er trent på faste kategorier.
De kjenner igjen "bil", "stol", "person" – og ingenting annet.

WildDet3D er open-vocabulary. Du skriver inn hva du leter
etter – "kaffekopp", "potteplante", "brannhydrant" – og
modellen finner det i 3D-rommet, uavhengig av om den har
sett akkurat det objektet under trening.

Tre måter å styre deteksjonen

Modellen aksepterer tre typer input:

Tekst – skriv inn kategorinavnet, modellen finner
alle forekomster i scenen.

Punkt – klikk på et objekt i bildet, modellen
returnerer full 3D-bounding box.

2D-boks – tegn en boks rundt et objekt, modellen
"løfter" det automatisk inn i 3D-rommet.

Dette gjør det mulig å koble WildDet3D til andre
systemer – for eksempel en vision-language modell
som tolker hva brukeren spør om, mens WildDet3D
håndterer den romlige lokaliseringen.

LiDAR og iOS-app

Modellen fungerer på vanlige RGB-bilder alene, men
utnytter dybdesignaler som LiDAR og ToF-sensorer
når de er tilgjengelige – for eksempel på iPhone 12 Pro
og nyere – for å skjerpe presisjonen på avstand,
volum og orientering.

En offisiell iOS-app er tilgjengelig i App Store
og visualiserer 3D-rammene over virkelige objekter
via AR. Full modell krever foreløpig noe optimalisering
for ekte sanntidskjøring på enheten.

Datasett og åpen tilgang

Alongside modellen slippes WildDet3D-Data: over
1 million bilder med 3,7 millioner verifiserte
3D-annotasjoner fordelt på over 13 000 objektkategorier.

Alt er åpent tilgjengelig – modell, data, demo og app.

Hva kan dette brukes til?

Romlig forståelse er et kjerneproblem for robotikk,
AR og wearables. WildDet3D er designet som et
spatial reasoning-lag som kan plugges inn i
større pipelines – ikke bare som en frittstående app.

Ressurser

Read more