WildDet3D – 3D-objektdeteksjon fra ett enkelt bilde
Allen Institute for AI har sluppet noe som kan bli et
viktig byggesteinn for fremtidens romlige AI.
WildDet3D gjenkjenner og lokaliserer objekter i 3D
fra ett enkelt bilde – og aksepterer instruksjoner
på tre ulike måter.
Hva gjør den annerledes?
De fleste 3D-deteksjonssystemer er trent på faste kategorier.
De kjenner igjen "bil", "stol", "person" – og ingenting annet.
WildDet3D er open-vocabulary. Du skriver inn hva du leter
etter – "kaffekopp", "potteplante", "brannhydrant" – og
modellen finner det i 3D-rommet, uavhengig av om den har
sett akkurat det objektet under trening.
Tre måter å styre deteksjonen
Modellen aksepterer tre typer input:
Tekst – skriv inn kategorinavnet, modellen finner
alle forekomster i scenen.
Punkt – klikk på et objekt i bildet, modellen
returnerer full 3D-bounding box.
2D-boks – tegn en boks rundt et objekt, modellen
"løfter" det automatisk inn i 3D-rommet.
Dette gjør det mulig å koble WildDet3D til andre
systemer – for eksempel en vision-language modell
som tolker hva brukeren spør om, mens WildDet3D
håndterer den romlige lokaliseringen.
LiDAR og iOS-app
Modellen fungerer på vanlige RGB-bilder alene, men
utnytter dybdesignaler som LiDAR og ToF-sensorer
når de er tilgjengelige – for eksempel på iPhone 12 Pro
og nyere – for å skjerpe presisjonen på avstand,
volum og orientering.
En offisiell iOS-app er tilgjengelig i App Store
og visualiserer 3D-rammene over virkelige objekter
via AR. Full modell krever foreløpig noe optimalisering
for ekte sanntidskjøring på enheten.
Datasett og åpen tilgang
Alongside modellen slippes WildDet3D-Data: over
1 million bilder med 3,7 millioner verifiserte
3D-annotasjoner fordelt på over 13 000 objektkategorier.
Alt er åpent tilgjengelig – modell, data, demo og app.
Hva kan dette brukes til?
Romlig forståelse er et kjerneproblem for robotikk,
AR og wearables. WildDet3D er designet som et
spatial reasoning-lag som kan plugges inn i
større pipelines – ikke bare som en frittstående app.
Ressurser
- WildDet3D – Ai2 –
offisiell lansering - GitHub – WildDet3D –
kode og dokumentasjon - Hugging Face – allenai –
modell og data - Allen Institute for AI –
offisiell side