Yapay Zeka (Artificial Intelligence) terimi ilk kez 1956 yılında Stanford Üniversitesi öğretim üyelerinden Prof. John McCarthy tarafından ortaya atılmıştır.
Avusturalyalı zoolog Andrew Parker, “In the Blink of Eye Evolution of Vision” adlı eserinde görme duyusunun canlılardaki evrimini ve teorilerini başarılı bir şekilde anlatmıştır. Eski Standord Yapay Zeka Lab Direktörü ve Google Cloud çalışanı Fei Fei Li, Ted Talks kanalında yayınlanan bir konuşmasına “Gelecek Dünya Neye Benzeyecek?” diye sorarak başlıyor.
Görmek; Dünyayı tamamen farklı algılamamızı sağlamıştır. Aşağıdaki görselde robotların ev temizliği, çiçeklerin bakımı, yemek yapımı ve evdeki çocuğun yıkanması gibi işleri yapması resmedilmiştir. Burada üstünde durulması gereken nokta, robotların gözleri var ve görebiliyorlar. Görme yeteneğinin haricinde robotların insan gibi karar verme ve uygulama yetenekleri de var.
Visual intelligence is a cornerstone of artificial intelligence.” Fei Fei Li
“Görsel zeka, yapay zekanın temel taşıdır.” Fei Fei Li
Peki o zaman yukarıda resmedilen sahneyi gerçeğe dönüştürmek maksadıyla;
- Bilgisayarlı Görme (Computer Vision),
- Örüntü Tanıma (Pattern Recognition),
- Sınıflandırma (Classification) problemlerini
çözüp, insan beyni gibi değerlendirebilen -bir çocuk gibi öğrenebilen hatta bazen çocuktan hızlı öğrenebilen- bir sistemi nasıl oluşturabiliriz?
İnsan beyninin fiziksel olarak en küçük kısmı (oksipital lob) görme işlemini yapmakla yükümlüdür. Görme sisteminden alınan resimler (video görüntülerinde her bir çerçeve (frame)) beyinde çeşitli şekillerde ve üstelik mükemmel karmaşıklıkla işlenmektedir.
Oksipital Lob
İlk Kırılma
Bu sisteme yaklaşmanın yolu 1960’lı yıllarda MIT (Massachusetts Institute of Technology) bir yaz okulu projesinde ateşlenmeye başlamıştır.
İkinci Kırılma
1986’da Geoffrey Hinton ile gerçekleşmiştir. İnsan beyninin öğrenme şeklini modellemeye çalışan yapay sinir ağları ve yapay sinir ağlarının hatadan öğrenmesini sağlayan geriye yayılım (backprogation) algoritması ile gerçek yapay zekâya nasıl ulaşılabileceği problemine bir ara çözüm bulunmuştur. İşte o andan itibaren her gün yeni teoriler atılacak olan “O” alan dünya çapında bir patlama yaşadı. Acaba bilgisayar insanı yenecek mi? Ama henüz yeni doğmuş olan bu bebeğe önce çok fazla bilgiyi öğretmemiz gerektiğini bundan yaklaşık 15 yıl sonra gerçekleştirebilecektik.
Backprogation
1998 yılında -şu anda Facebook Yapay Zeka Direktörü olan- Prof.Yann LeCun gradyan temelli yaklaşımla Evrişimsel Sinir Ağlarını (Convolutional Neural Network) kullanmış ve kendi ağ yapısına da LeNet adını vermiştir. Tasarladığı ağ mimarisi ile 0-9 arasındaki sayıları öğretmiş ve rakamlardan herhangi biriyle karşılaşan sistem bunun hangi rakam olduğunu tahmin etmiştir. İnsanın 0.1 sn’de yapabildiği her şeyi 10 katmanlı büyük bir ağın da yapabileceği fikriyle, Yann LeCun karikatürize edildiği gibi makinelere öğretmeye başlamıştır. Bu üçüncü kırılma noktasıdır.
Ama buradaki dar boğaz da bilgisayar işlemcilerinin (CPU) işlem kapasitesinin yetersiz olması olmuştu. 1998’den 2010-2012’ye kadar genelde piksel tabanlı olarak Görüntü İşleme (Image Processing) konularına, sınıflandırma, örüntü tanıma alanlarında problemlere yaklaşımlar geliştirildi. Ancak bunlar en başta da belirttiğim gibi “insan gibi” değerlendirecek bilgiler içermediler. Jia Deng, Wei Dong, Richard Socher, Li-Jia, Kia Li ve Li Fei-Fei (CVPR,2009) 167 ülkeden de destek alarak “Big Data” fikriyle giriştikleri “IMAGENET” veri setini oluşturdular. 22.000 farklı kategoriden 15.000.000 farklı görüntü etiketlenerek büyük veri seti oluşturuldu.
Bununla birlikte CPU yerine grafik tabanlı işlemcilerin kullanılması donanımsal soruna da muhteşem bir çözüm getirmişti ve artık bir şeyler olması an meselesiydi. GPU kullanılmasıyla birlikte ağların performansının nasıl pozitif etkilendiği yarışma sonucunda gösterilmektedir.
Google bu işe el atınca da dördüncü kırılma noktası yaşanmış oldu: AlexNet.
8 katmanlı bu konvolüsyonel ağ ile top-5 hata oranı %16.4’e erişti. AlexNet ağ yapısı aşağıdaki görselde olduğu gibi 2 paralel yapının birleşmesinden oluşmaktadır.
Bunun ardından Google-DeepMind ve Facebook-Yapay Zeka Lab., Stanford Üniversitesi, Kalifornia Üniversitesi, Massachusetts Teknoloji Enstitüsü bünyelerindeki Yapay Zeka Lab.ında yüksek lisans ve doktora öğrencileri bu konu üzerine çok hızlı çalışmalar gösterdiler ki ilk akla gelen isimlerden biri de Christian Szegedy. Bu isim bize “Konvolüsyonlarla daha derine gitmeliyiz” dedi (Gooing Deeper with Convolus,2014) ve GoogLeNet karşımızdaydı.
GoogLeNet
2014 yılında “Inception” kavramıyla tanışmış olduk ve artık sadece derine gitmek yetmez oldu. Res-Net ve Inception versiyonları sayesinde artık hem derine hem enine gitmek gerekti. Buna da “deeper and wider” dendi. ILSVRC (ImageNet Large Scale Visual Recognition Competition) yarışmasındaki yıldan yıla elde edilen top-5 başarımı ve katman sayısı arasındaki ilişki aşağıdaki gibi bir hal aldı: Derinlik Devrimi
Res-Net 152 katmana sahip bir ağ başarımda büyük fark yaratmıştır. (Kaiming He, Xiangyu Zhang, Shaoqing Ren & Jian Sun, “Deep Residual Learning for Image Recognition”,2015)
Derin Öğrenme (Deep Learning) yani katman konvolüsyonel bir ağ yapısı, filtreler, boyutlandırma işlemleri, optimizasyon, performans hesaplamaları…
Artık gerçek yapay zekâ karşımızda! Derin öğrenmenin kahramanlarını listelemek belki bu konuda araştırma yapmaya henüz başlayanlar için iyi bir işaret gösterme olabilir.
Derin Öğrenmenin Kahramanları
- Prof. Geoffrey Hinton (Toronto Üniversitesi)
- Prof. Yashua Bengio (Montreal Üniversitesi)
- Prof. Yann LeCun (Facebook Yapay Zeka Lab. Yöneticisi)
- Prof. Andrew Ng (Baidu Baş Bilim adamı)
- Prof. Fei-Fei Lİ (Stanford Üniversitesi, Yapay Zeka Lab. Yöneticisi ve Google Cloud Yöneticisi)
- Dr. Andrej Karpathy (Tesla Yapay Zeka Lab. Yöneticisi)
Değişimin devrimselliğini vurgulamak adına Andrew Ng sözü ile yazımı sonlandırıyorum.
Bu motivasyonla daha teknik yazılara hazırız!