Bilgisayarlar deney yaparak hiçbir programlamacının öğretemeyeceği şeyleri öğreniyor.
Basit bir bilgisayar simülasyonunun içerisinde, kendi kendine gidebilen araçlar, dört şeritli otoban üzerinde çılgın manevralar yapıyor. Araçlardan yarısı sağ şeritten sola, diğer yarısı da sol şeritlerden sağa kaçarken tam bir karmaşa varmış gibi görünüyor. Fakat sürücüsüz araçlar hatasız şekilde yollarına devam ediyorlar.
Bahsi geçen sürüş simülasyonunu geçtiğimiz Aralık ayında Barselona’da düzenlenen dünyanın en büyük yapay zeka konferansında izledim. Simülasyonun asıl etkileyici tarafı ise araçları kontrol eden yazılımın geleneksel şekilde programlanmamış olması. Yazılım, güvenli ve sorunsuz şekilde şerit değiştirmeyi deneyerek öğrendi. Eğitim süresi boyunca yazılım, tekrar tekrar deneyerek ve her denemede yönergelerinde ufak tefek değişiklikler yaparak kendini geliştirdi. Çoğu kez araçlar çok yavaş bir şekilde şerit değiştirip birbirlerinin yolunu kesti. Fakat pürüzsüz bir şekilde şerit değişimi yaşandığında yazılım bu hareketi öğrenerek uygulamaya başladı.
Bu yaklaşım “takviyeli öğrenme” diye çevrilebilecek olup AlphaGO ismiyle tanınan ve Alphabet tarafından üretilen DeepMind adlı bilgisayarın, geçtiğimiz sene, karmaşık Go oyununda dünyanın en iyilerinden birini yenmesiyle kendini gösteren bir yöntemdir. Takviyeli öğretim yakın gelecekte oyunlar dışında da kendini gösterebilir. Sürücüsüz araçların yanı sıra bu teknoloji sayesinde robotlar, daha önce görmedikleri cisimleri kavrayabilir ya da veri merkezlerindeki cihazlar için ideal ayarlamaları yapabilir.
Takviyeli öğrenme, doğadaki temel bir prensibi taklit ediyor. Psikolog Edward Thorndike bu prensibi yüz yıldan uzun bir zaman önce belgelemişti. Thorndike, deneyinde kullandığı kedileri, yalnızca bir manivelaya basmaları durumunda kurtulabilecekleri bir kutuya yerleştirmişti. Kediler uzun bir süre ortada gezinip miyavladıktan sonra şans eseri manivelanın üzerine bastılar. Bu iki durumun ilişkisini öğrendikten sonra ise, çok hızlı bir şekilde kutudan çıkmaya başladılar.
Yapay zeka üzerinde ilk çalışmaları yapan gruplar, bu yöntemin işlevsel bir şekilde makinelere de uygulanabileceğine inanıyordu. 1951 yılında, daha sonradan yapay zekanın babalarından biri olarak anılacak, dönemin Harvard öğrencisi, sonrasının ise MIT profesörü Marvin Minsky, farelerin labirentten kaçışlarını taklit eden, basit bir takviyeli öğrenme metodu kullanan bir makine dizayn etti. Minsky’nin Stokastik Sinirsel Analoji Güçlendirme Bilgisayarı SNARC, 40 adet nöronu ve sinapsı taklit ediyor ve onlarca tüp, motor ve kavrama çubuğundan oluşuyordu. Fare simülasyonunun sanal labirentten çıkması ile sinaptik bazı bağlantıların güçlenmesi ve bu sayede altta yatan davranışın takviye edilmesi sağlanıyordu.
Sonraki on yıllık dönemlerde benzer birkaç başarı daha elde edildi. 1992 yılına gelindiğinde IBM’de araştırmacı olarak görev yapan Gerald Tesauro, takviyeli öğrenme tekniğini kullandığı bir program ile tavla oyunu dizayn etti. Bu program en iyi oyunculara rakip olacak kadar kendini geliştirmeyi başardı ve yapay zeka alanında önemli bir başarı olarak tarihe geçti. Fakat takviyeli öğrenmenin daha karmaşık görevler için kullanılmasının zorluğu da ortaya çıktı. Takviyeli öğrenmenin ihtimal dahilinde olduğunu savunan ve “DeepMind” projesinde çalışan David Silver: “İnsanlar bu fikrin çok havalı olduğunu, fakat işe yaramadığını düşünüyor.” diyor.
Bu bakış açısı 2016 yılının Mart ayında kökten değişti. Değişimin nedeni ise takviyeli öğrenmeyi kullanan ve Go oyununda dünyanın en iyilerinden Güney Koreli Lee Sedol’u yenen “AlphaGo” programı oldu. Bu durum oldukça şaşırtıcıydı, zira geleneksel yöntemlerle iyi bir Go oyuncusu program geliştirmek imkansız bir görevdi. Zorluğun tek sebebi oyunun karmaşık olması değil, oyuncuların da hangi hamlenin neden daha mantıklı olduğunu açıklayamamalarıydı. Bu da programı kodlamayı inanılmaz ölçüde sıkıntıya sokuyordu. Çoğu yapay zeka uzmanı, bir programın profesyonel oyuncu seviyesine çıkabilmesinin on yıl kadar süreceği görüşündeydi.
Trafiğin Bir Parçası Olmak
Henüz Cambridge Üniversitesi’nde öğrenciyken yapay zeka kavramından oldukça etkilenen David Silver takviyeli öğrenmenin heyecan verici olduğunu ve kilit noktanın “derin öğrenme” ile birlikte kullanılması olduğunu belirtiyor. Bu teknik, verilerin içerisinden doğru olanları bulmak için devasa simule sinir ağı kullanılan bir yol.
Takviyeli öğrenmenin işe yaramasının nedeni, araştırmacıların bilgisayarlara ihtiyaçları olan veriyi okumayı ve kullanmayı öğretebilmiş olmaları. Yani bahsettiğimiz labirentteki farenin her seçimini değerlendirip doğru olanları alması. Alınan her veri büyük bir tabloda saklanırken bilgisayar öğrendikçe bu verileri güncelliyor. İstenilen görev büyüdükçe ve karmaşıklaştıkça yapılması gereken hesaplamalar da zorlaşıyor. Öte yandan geçtiğimiz yıllarda derin öğrenmenin, farenin seçimlerinden Go oyunundaki hamlelere ve hatta oyun sırasında gösterilecek piksellerin seçimine kadar birçok veri değerlendirmesini kolaylıkla yapabildiği ortaya çıktı.
Zaten DeepMind da oyunlar sayesinde adından söz ettirir oldu. 2013 yılında bir program, çeşitli Atari oyunlarını çok ileri düzeylerde oynamayı öğrendi ve bu başarısının ardından, programın yazılımcısı firma Google tarafından bir sene sonra 500 milyon dolara satın alındı. Bu ve benzeri adımlar sayesinde diğer araştırmacılar da yüzünü takviyeli öğrenmeye döndü. Birçok endüstriyel robot üreticisi, takviyeli öğrenme yaklaşımına odaklanarak elle programlama ihtiyacı olmadan robotların yeni görevleri yerine getirebilmesini umuyor. Google’daki araştırmacılar da DeepMind ile çalışarak derin takviyeli öğrenme yöntemini geliştirmeye ve bu sayede veri merkezlerinde enerji tasarrufu sağlamaya çalışıyorlar. Veri merkezindeki tüm değişkenlerin incelenip değerlendirilmesi oldukça zor olsa da takviyeli öğrenme sayesinde soğutma sistemine ihtiyaç duyulacak zaman belirlenebilir.
Fakat bu yazılımın insani davranışlarını en iyi fark edebileceğiniz yer sürücüsüz araçlar olacaktır. Günümüzdeki sürücüsüz araçlar, dörtyol ağızları ya da trafik sıkışıklığında, insanların kullandıkları araçlarla karşılaştıklarında bocalayabiliyorlar. Bu araçların gereksiz yere risk almamaları ya da fazlaca tereddütte kalıp trafiği sıkıştırmamaları için ufak tefek ayarlamalar yaparak sürüşe devam edebilmeleri gerekiyor. Diğer bir deyişle sürücüsüz araçların sıkışık trafikte kendine yer edinebilmeleri gerekiyor.
Yazının başında bahsedilen otoyol yazılımı, Tesla Motors gibi birçok otomobil üreticisine güvenlik sistemleri sağlayan İsrailli Mobileye firması tarafından Barselona’da denendi. Şerit değişiklikleri ekranda izlendikten sonra, şirketin teknolojiden sorumlu başkan yardımcısı Shai Shalev-Shwartz, sürücüsüz araçların karşılaşacağı bazı sıkıntıları gösterdi. Kudüs’teki yoğun bir göbek, Fransa’daki kalabalık bir kavşak ve kaosun hakim olduğu Hindistan’da bir yol. Shalev-Shwartz, sürücüsüz araçların kurallara harfiyen uymaları halinde, tek bir şerit değişiminin bile bir saat kadar sürebileceğini belirtiyor.
Mobiley firması BMW ve Intel işbirliği ile bu yılın sonlarına doğru bir otomobil filosu ile yazılımlarını denemeyi planlıyor. Diğer taraftan da Google ve Uber de takviyeli öğrenme yazılımlarını sürücüsüz araçlarda deneyeceklerini duyurdu.
Takviyeli öğrenme yaklaşımında uzmanlaşan Stanford Üniversitesi’nden Emma Brunskill, bu tekniğin farklı alanlarda kullanılmaya başlandığını belirtiyor. Fakat bunun en iyi örneğinin sürücüsüz araç teknolojisinde kullanıldığını, zira başarılı karar serilerinin oluşturulduğunu söylüyor. Eğer bu kararlar programcılar tarafından kodlansaydı ilerleme çok daha yavaş olurdu.
Fakat her şeye rağmen, halen aşılması gereken engeller bulunuyor. Çin menşeili Baidu şirketinin baş bilimcisi Andrew Ng, bu teknik için devasa boyutlarda veriye ihtiyaç olduğunu ve bilgisayarın aralıksız bu verileri test etmesi gerektiğini belirtiyor. Bu nedenle araştırmacılar halen birden fazla amacın olduğu görevler gibi karmaşık durumlarda takviyeli öğrenmenin nasıl kullanılacağı üzerine çalışıyor. Örneğin Mobileye, sürücüsüz araçların kazadan kaçınmaları protokolünün, başka araçların kaza yapmasına yol açmadan uygulanması için çabalıyor.
Firmanın sürücüsüz araç simülasyonunu izlediğinizde, en azından şimdilik başarıya ulaştıklarını düşünebilirsiniz. Fakat bu yılın sonlarına doğru, takviyeli öğrenme gerçek bir otoyolda en önemli sınavını vermek için karşımıza çıkabilir.