İnsanın görme sistemi, sensör organ yani göz ve beyinden oluşan bir sistemdir. Çevremizdeki nesnelerden yansıyan görünür ışığın iki boyutlu projeksiyonundan, üç boyutlu bir dünya kurgulayarak insanların çevresel uyumuna katkı sağlar. İnsan görme sistemi doğuştan var olan bir yapıdır. Bir başka deyişle görmeyi öğrenmemize gerek yoktur. Çevremizdeki nesnelerden yansıyan ışık korneadan gözlere girer. Göze giren ışık miktarı gözbebekleri ve iris yardımıyla ayarlanarak gözün içine yönlendirilir. Işık korneadan geçtikten sonra retinaya girer ve retinada bulunan fotoreseptörlere ulaşır. Fotoreseptörler ışığı elektrik sinyallerine dönüştürerek optik sinirler aracılığıyla beynimizin arka kısmına gönderir.
Göz tek başına değerlendirildiğinde bir kamera gibi çalışır. Benzer bir şekilde kameraya gelen ışık, mercek sistemi boyunca hareket eder ve algılayıcı olarak çalışan ve görüntüyü elektrik sinyallerine dönüştüren dedektör yardımı ile dijital formata dönüştürülür. Günümüzdeki teknolojik gelişmeler ile görünür spektrumun ötesindeki ışığı algılayabilen ve yakınlaştırmak için çok sayıda lens içeren kameralar üretebiliyoruz. Bu tarz kameralar bazı konularda insan gözünden üstün özellikler taşımalarına rağmen, görüntünün anlamlandırılması konusunda insan görme sisteminin oldukça gerisinde kalmaktadır.
Doğumdan ölüme kadar, insanların temel becerileri bilinçaltında gelişmektedir. Görme duyusu gibi duyularımız sürekli olarak beynimize veri sağlar. Bu bilgiler beynimiz tarafından işlenir algımız oluşur. Görme hissi de bilgi işleme sonucu oluşmaktadır. Bir görüntünün ne olduğunu anlamak için beynimizin bu bilgiyi renk, şekil, hareket ve detay olarak temsil edebilmesi gerekir. Yapay zekâ, insan zihninin problem çözme ve karar verme yeteneklerini taklit etmek için bilgisayarlardan ve makinelerden yararlanır. Yapay zekâ algoritmalarının bazı eğitim algoritmaları biyolojik öğrenmeden esinlenmiştir. Derin öğrenme, beyinden ilham alan bir yapay zekâ yöntemidir. Eğitim seti adı verilen örnek verilerden öğrenen bir tür makine öğrenmesi algoritmasıdır. Algoritmalar yalnızca eğitim verileriyle eğitilebildiğinden, girdiden özellik çıkarma gibi insan müdahalesine ihtiyaç duyulmaz. Derin öğrenme ağ mimarisi beyne benzerliği nedeniyle yapay sinir ağı olarak da adlandırılır.
Bilgisayarla görü, bilgisayarların dijital görüntülerden veya videolardan nasıl üst düzey bir anlayış kazanabileceğiyle ilgilenen disiplinler arası bir bilim dalıdır. Mühendislik açısından bakıldığında, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışır. Yapay zekâ destekli bilgisayarlı görü, canlılardaki görsel algı süreçlerini matematiksel olarak modellemeyi ve bilgisayarların kapasitesini kullanarak bu görsel yetenekleri taklit etmeyi sağlayan modeller ve algoritmalar geliştirmeyi amaçlayan bir yapay zekâ alanıdır. Bu alandaki gelişmeler, bilgisayarların insan yardımı olmadan görüntüler hakkında çıkarımlarda bulunabileceğini göstermektedir. İnsanlar çevresindeki dünyayı zahmetsizce algılayabildiği için bu basit bir işlem gibi görünür fakat bir bilgisayara insan gibi görmeyi öğretmek oldukça zordur.
Yakın zamana kadar, bilgisayarla görü yalnızca sınırlı bir kapasitede çalışıyordu. Yapay zekâdaki ilerlemeler ve derin öğrenme ve sinir ağlarındaki yenilikler sayesinde bu alan son yıllarda büyük atılımlar yapabilmiş ve nesneleri algılama ve etiketleme ile ilgili bazı görevlerde insanları geçmeyi başarmıştır. Bilgisayarlı görü başarısının arkasındaki itici faktörlerden bazıları, günümüzde yüksek miktarlarda üretilen ve bilgisayarlı görü yöntemlerini eğitmek için kullanılan etiketli veri miktarı ve yüksek işlem kapasitesine sahip donanımlar yardımı ile eğitilebilen karmaşık modellerdir. Karmaşık modellerin çok sayıda etiketli veri ile eğitilmesi yüksek başarımlara ulaşsa da beraberinde bazı problemler getirmektedir. Örneğin etiketli verinin az bulunduğu alanlarda yüksek performanslı modeller eğitmek ve karmaşık modellerin gerçek zamanlı sistemlerde çalıştırılması hâlâ açık bir problemdir.
Göz tek başına değerlendirildiğinde bir kamera gibi çalışır. Benzer bir şekilde kameraya gelen ışık, mercek sistemi boyunca hareket eder ve algılayıcı olarak çalışan ve görüntüyü elektrik sinyallerine dönüştüren dedektör yardımı ile dijital formata dönüştürülür. Günümüzdeki teknolojik gelişmeler ile görünür spektrumun ötesindeki ışığı algılayabilen ve yakınlaştırmak için çok sayıda lens içeren kameralar üretebiliyoruz. Bu tarz kameralar bazı konularda insan gözünden üstün özellikler taşımalarına rağmen, görüntünün anlamlandırılması konusunda insan görme sisteminin oldukça gerisinde kalmaktadır.
Doğumdan ölüme kadar, insanların temel becerileri bilinçaltında gelişmektedir. Görme duyusu gibi duyularımız sürekli olarak beynimize veri sağlar. Bu bilgiler beynimiz tarafından işlenir algımız oluşur. Görme hissi de bilgi işleme sonucu oluşmaktadır. Bir görüntünün ne olduğunu anlamak için beynimizin bu bilgiyi renk, şekil, hareket ve detay olarak temsil edebilmesi gerekir. Yapay zekâ, insan zihninin problem çözme ve karar verme yeteneklerini taklit etmek için bilgisayarlardan ve makinelerden yararlanır. Yapay zekâ algoritmalarının bazı eğitim algoritmaları biyolojik öğrenmeden esinlenmiştir. Derin öğrenme, beyinden ilham alan bir yapay zekâ yöntemidir. Eğitim seti adı verilen örnek verilerden öğrenen bir tür makine öğrenmesi algoritmasıdır. Algoritmalar yalnızca eğitim verileriyle eğitilebildiğinden, girdiden özellik çıkarma gibi insan müdahalesine ihtiyaç duyulmaz. Derin öğrenme ağ mimarisi beyne benzerliği nedeniyle yapay sinir ağı olarak da adlandırılır.
Bilgisayarla görü, bilgisayarların dijital görüntülerden veya videolardan nasıl üst düzey bir anlayış kazanabileceğiyle ilgilenen disiplinler arası bir bilim dalıdır. Mühendislik açısından bakıldığında, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışır. Yapay zekâ destekli bilgisayarlı görü, canlılardaki görsel algı süreçlerini matematiksel olarak modellemeyi ve bilgisayarların kapasitesini kullanarak bu görsel yetenekleri taklit etmeyi sağlayan modeller ve algoritmalar geliştirmeyi amaçlayan bir yapay zekâ alanıdır. Bu alandaki gelişmeler, bilgisayarların insan yardımı olmadan görüntüler hakkında çıkarımlarda bulunabileceğini göstermektedir. İnsanlar çevresindeki dünyayı zahmetsizce algılayabildiği için bu basit bir işlem gibi görünür fakat bir bilgisayara insan gibi görmeyi öğretmek oldukça zordur.
Yakın zamana kadar, bilgisayarla görü yalnızca sınırlı bir kapasitede çalışıyordu. Yapay zekâdaki ilerlemeler ve derin öğrenme ve sinir ağlarındaki yenilikler sayesinde bu alan son yıllarda büyük atılımlar yapabilmiş ve nesneleri algılama ve etiketleme ile ilgili bazı görevlerde insanları geçmeyi başarmıştır. Bilgisayarlı görü başarısının arkasındaki itici faktörlerden bazıları, günümüzde yüksek miktarlarda üretilen ve bilgisayarlı görü yöntemlerini eğitmek için kullanılan etiketli veri miktarı ve yüksek işlem kapasitesine sahip donanımlar yardımı ile eğitilebilen karmaşık modellerdir. Karmaşık modellerin çok sayıda etiketli veri ile eğitilmesi yüksek başarımlara ulaşsa da beraberinde bazı problemler getirmektedir. Örneğin etiketli verinin az bulunduğu alanlarda yüksek performanslı modeller eğitmek ve karmaşık modellerin gerçek zamanlı sistemlerde çalıştırılması hâlâ açık bir problemdir.