Computer vision, även känt som vision AI eller AI vision, är en specialiserad tillämpning av artificiell intelligens (AI) som syftar till att analysera och förstå visuella data. Det kan t.ex. vara videor, foton, satellitbilder eller skanningar. I likhet med människans synförmåga ger datorseende maskiner möjlighet att fånga upp visuell information, tolka den och reagera därefter.
Computer vision (även: vision AI, AI vision) är inte bara bildigenkänning. Det är ett område inom AI som gör det möjligt för datorer och system att extrahera meningsfull information från visuella data. Denna teknik gör det möjligt för system att vidta åtgärder eller ge rekommendationer. Datorseende går alltså längre än enkel bildbehandling genom att ta hänsyn till kontextuell information och reagera intelligent på förändringar i miljön. Med hjälp av algoritmer och maskininlärning kan mönster och funktioner identifieras, objekt identifieras och rörelser spåras.
Datorseende kan användas inom många områden, bland annat sjukvård, autonoma fordon och säkerhetsövervakning. Inom t.ex. robotik gör datorseende det möjligt för robotar att visuellt uppfatta sin omgivning, identifiera objekt och fatta beslut baserat på detta. Detta gör det möjligt för robotar att utföra autonoma uppgifter, t.ex.
Målet med datorseende är att med hjälp av maskininlärningsmodeller skapa digitala system som kan bearbeta och analysera visuella data på samma sätt som människor - eller till och med snabbare och effektivare.
Processen inleds med att bilder och videor tas, vilka förbehandlas av algoritmer. Data analyseras sedan genom maskininlärning med hjälp av tidigare tränade modeller som kan känna igen specifika funktioner och mönster. Dessa modeller baseras på stora datamängder, vilket gör att de kan bli alltmer exakta genom träning.
En avancerad teknik är djupinlärning, där man använder så kallade convolutional neural networks (CNN). Dessa nätverk består av flera lager som känner igen specifika funktioner i en bild. Enkla funktioner som kanter identifieras först, följt av mer komplexa mönster. Detta gör det möjligt för systemet att gradvis förstå objekt och scener bättre och bättre
Slutligen används den extraherade informationen för att utlösa åtgärder eller ge rekommendationer. Tack vare framsteg inom hårdvara och datorkraft kan datorseende redan fungera i nära realtid och hantera komplexa uppgifter. Moln- och edge computing har ytterligare ökat prestandan för datorseende.