İstatistiksel İletişim Topluluğu'nun Bilgi Paylaşım ve Üretim Ortamı

Posts tagged ‘sosyal ağ’

Devlet–Akademik Çevre Cephesi ve Büyük Veri Dini

Devlet–Akademik Çevre Cephesi ve Büyük Veri Dini

Büyük veriyle birlikte tedirgin bir yaz geçirdik. İlk olarak büyük veri “bilimi” adına Facebook’un 700.000 kullanıcısının duygularını bir deneyle manipüle ettiği haberi geldi. Ardından Guardian, ABD Savunma Bakanlığı’nın (Department of Defense – DoD) ileri araştırma kolu olan İleri Savunma Projeleri Araştırma Ajansı’na (Defense Advanced Research Projects Agency – DARPA) benzer çalışmalar için para ödediğini, araştırmacıların “haberi olmayan katılımcıları takip ettiğini ve onların ne cevap verdiklerini tespit ettiğini” söyledi. ABD Ulusal Güvenlik Dairesi (National Security Agency – NSA) ile ilgili yeni haberler yaz boyunca ortaya çıkmaya devam etti: Bir Washington Post araştırmasına göre NSA’nın ABD dijital ağlarında takip ettiği sıradan internet kullanıcı sayısı, kanuni olarak izlenen yabancıların sayısını büyük oranda aştı. Bununla birlikte Snowden Wired’a NSA’nın siber savaş programı MonsterMind’ın denizaşırı ülkelerden ABD’deki insanlara yönelik tüm özel iletişime sanal olarak erişebildiğini açıkladı.

Facebook veri bilimcileri tarafından yürütülen bu deneyin ve DoD’nin desteklediği araştırmacıların en çok eleştirilen yanı etik açıdan tartışmalı olmalarıydı. Bu tartışmanın odak noktası NSA’in yaptığı izlemelerin yasal açıdan tartışmalı olmasıydı. Buna karşın her iki olayda da NSA veya DARPA’daki federal hükümet çalışanlarının, akademisyenlerin ve özel sektör veri bilimcilerinin herhangi bir etik veya yasal normu çiğnediklerine inanmadıkları nadiren eleştiriliyordu: Onların beyinleri Büyük Veri Diniyle yıkanmıştı.

BigData_2267x1146_white_Wikimedia

Daha büyük olan daha iyidir ve veri anlamsız bir etkinliğe sahiptir. Daha çok veriye sahip oldukça bu veriden daha çok beklenmeyen anlamlar ortaya çıkacak ve daha önce görülmemiş yapılar keşfedilecektir. İşte bu büyük veri dinidir. Bu dinin bir inananı olarak siz; etik ve kuralları, inanmayanlara göre farklı bir ışık altında görürsünüz. Ayrıca yeni bir bilimsel hareketin bir parçası olarak; hipotezler ve geleneksel istatistiksel tekniklerin arkasındaki varsayımlar gibi can sıkıcı şeyleri ortadan kaldırırsınız. Soru sormanıza gerek yoktur, sadece çok sayıda veri toplayıp verinin konuşmasına izin verirsiniz.

Kate Crawford şöyle yazmış: “Büyük veri çalışmalarında araştırma sorusunun önemi veya araştırma bulgularının anlamlılığı dikkate alınmadan, devasa büyüklükte örneklemlere değer vermeye yönelik bir eğilim var. Ancak duygu bulaşması çalışmalarından öğrendiğimiz bir şey varsa o da çok sayıda katılımcı ve verinin iyi bir araştırma yapmak için yeterli olmadığıdır.”

İyi bir araştırma olmamanın birçok nedeni (örneğin buraya bakın) vardır ama belki de en önemlisi araştırmanın çok fazla veriye dayalı olmasıdır. Pew Araştırma Şirketi baş editörü Rich Morin şöyle diyor: “Çok büyük örnekleme dayalı çalışmalar istatistiksel olarak anlamlı sonuçlar üretebilir ama aynı ölçüde abestirler. Basit bir aritmetik bu durumu göstermektedir: Örneklem ne kadar büyükse, herhangi bir farklılığın istatistiksel olarak anlamlı olması için, bu farkın o derece küçük olması yeterlidir – diğer bir deyişle iki değerin birbirinden farklı olma ihtimali çok olasıdır. … ve bu araştırmacıların yaptığı gibi 689.003 gözlemlik muazzam büyüklükte bir tesadüfî örneğe sahipseniz, çok küçük farklılıklar bile standart anlamlılık testlerini geçerler. İşte sırf bu yüzden istatistik öğreticileri nesillerdir öğrencilerini “istatistiksel anlamlılığın”, “gerçekten ama gerçekten önemli” olduğu anlamına gelmediği konusunda uyarırlar.”

Buna rağmen büyük veri inananları geleneksel istatistiki tekniklerin sınır ve kısıtlamalarını yok saymaktadırlar. Bu inananlar “Facebook ve Facebook’un sahip olduğu veri, sosyal psikolojinin son on yılda kuantum sıçraması yapmasını mümkün kılmıştır” şeklinde kapsamlı iddialar üretmektedirler.

Eğer bu “kuantum sıçramaları” hakkında daha fazla bilgi edinmek isterseniz, Kashmir Hill’in sosyal ağ çalışmalarının bulgularını incelediği çalışmasına göz atabilirsiniz. Bu çalışmada şunun gibi ifadeler yer almaktadır: Arkadaşlarının paylaştığını gördüğün bir bilgi varsa, bu bilgiyi daha yüksek olasılıkla etrafındakilere yayarsın; insanlar söylenti yaymayı severler; çirkin şeyler bu çirkin şeylerle ilgili gerçeğin ortaya çıkarılmasından daha hızlı ve daha fazla yayılırlar; dijital raporlara kaydetmediğimiz şeyler düşünürüz.

Sosyal ağlar üzerinde ne okunduğu göz önüne alındığında, son bulgu biraz şaşırtıcıdır. Yine de bu ve benzer çalışmaların bulguları kesinlikle “sosyal psikolojide kuantum sıçramaları” olarak adlandırılamaz. Hill’in bu tip çalışmalardaki gizlilik ihlalinin önemini ölçtüğü “WTF puanına” biz de araştırma bulgularının bayağılığını ölçen “aptal bilim puanını” veya “büyük ölçüde abeslik puanını” ekleyebiliriz.

Bir önceki yazımda tartıştığım üzere, bulguların bayağılığı ve abesliği, büyük veri rahiplerini “toplumu yöneten matematiksel yasaları” keşfettiklerini iddia etmekten alıkoymaz. Yine de bu şekilde vaaz verme işe yarar ve sırf deneyinizi 700.000 kişi üzerinde yaptığınız için önemli dergilerde makalenizi kolayca yayınlayabilirsiniz. Görünüşe göre bilimsel bir makalenin iyiliği hakkında hüküm vermek için başta gelen yeni ölçüt; çalışmadaki denek sayısının çokluğudur.

Eğer sosyal bilimlerde doğa bilimlerinde kullanılan titiz ölçütler olmadığından; bu durumla sadece sosyal bilimlerde karşılaşıldığını düşünüyorsanız, büyük veri dininin yaygın etkisinin farkında değilsiniz demektir. Newsweek’ten Megan Scudellari yakın zamanlarda yayınladığı bir makalesinde “önce veri toplayıp ardından sorular sormak, doğal dünya hakkında keşif yapmak için heyecan verici ve yeni bir yoldur” inanışına değinmektedir. Scudellari bu inanışı ABD Ulusal Sağlık Enstitüleri’nin (National Institutes of Health – NIH) 40 milyon dolarlık İnsan Beyni Yol Haritası Projesi’nin (Human Connectome Project – HCP) baş araştırmacısı Davin Van Essen, NIH’nin veri bilimi bölümü ortak yöneticisi Philip Bourne ve diğerlerine atfetmektedir. Scudellari yayınladığı mükemmel makalede bu inanışa yönelik karşıt görüş ve tartışmalara yer vermektedir.

Büyük veri rahiplerinin Charles Darwin’in “spekülasyon olmadan iyi ve özgün gözlem olmaz” sözünü ve Albert Einstein’ın “neyi gözleyebildiğimizi belirleyen teoridir” tespitini çok iyi bildiklerinden eminim. Ama niçin eskilerden bahsedelim ki? Büyük veri rahiplerinin söyleyeceği üzere onlarda bugün sahip olduğumuz araçlar ve teknoloji yoktu; bu yüzden kendilerini spekülasyon ve teoriyle sınırlamak zorundaydılar. Şimdilerde biz önce veri toplayıp, sonrasında veriler tarafından henüz cevaplanmamış bilimsel sorular sorduğumuz yeni bir bilimsel “paradigma” planlıyoruz. Çünkü büyük veri günümüzde Delfi’nin Oracle’ıdır, bize konuşur ve “bilinmeyen bilinmeyenleri” ortaya çıkarır. (Çevirenin Notu: Yazar burada büyük veriyi Yunan mitolojisindeki Delfi kâhinlerine (Oracle of Delphi) benzetmektedir)

“Ölçek”, “otomatik bilim” ve “verinin anlamsız etkinliği” hakkındaki tüm bu konuşmayla ilgili aklımdaki kilit sorun,  “etkinlik” sorunudur. Scudellari New York Üniversitesinden sinir bilimci J. Anthony Moushon’dan şu alıntılamayı yapmaktadır: “Bir saman yığınının içinde bir yerlerde azıcık buğday var diye çok fazla veri toplamanız gerektiği fikri, fazla paranın kötü harcanmasına bir örnektir.”

Fanatik bir şekilde daha ve daha fazla veri peşinde koşarken çok fazla parayı israf etme tehlikesi vardır. Büyük verinin devlet-akademik çevre cephesinin bağ noktası olduğunu fark ettiğimizde bu tehlikenin daha korkutucu bir hal aldığını görürüz. Eisenhower “ciddi sonuçlarını” uyarmakla birlikte, askeri-sanayi cephesinin kalkınmasını “zorunlu ihtiyaç” olarak kabul etmektedir. Bunun aksine devlet-akademik çevre cephesinin gelişmesindeki ana sebep “büyük para”, “büyük devlet” ve “büyük bilimde” olduğu şekliyle “büyüğün” peşinde koşmaktır. Bu arayışta akademik çevre tarafı devlete daha da büyümek için giderek fazla neden sunmakta ve karşılığında finansman ve istihdam olanaklarından daha fazla yararlanmaktadır. Son zamanlarda büyük veri dini on yıllar sürecek bu eğilimlerin önemli bir hızlandırıcısı haline gelmiştir.

Bu bağlamda verilebilecek pek çok örnekten iyi bir tanesi de ABD Savunma Bakanlığının “Büyük İşleyiş (Big Mechanism)” programıdır. Aşağıdaki alıntılardan görüleceği üzere 42 Milyon Dolarlık bu programın büyüleyici bir tanımı vardır:

“Büyük İşleyiş programının çözmeye çalışacağı ilk büyük problem; hücrelerin kanserli olmalarına ve kalmalarına yol açan moleküler etkileşimlerin meydana getirdiği kanser yolaklarıdır. Program temelde üç teknik alana sahiptir:

Bilgisayarlar kanser yolakları parçalarının çıkarılmasına yönelik kanser biyolojisinde yayınlanmış bildiri ve makaleleri okumalıdır. Sonra bu parçaları görülmemiş ölçek ve kesinlikle bir araya getirip bütün halindeki yolakları oluşturmalı ve bu yolakların etkileşimini çözmelidir. Son olarak bilgisayarlar kanseri önlemek ve kontrol etmek için kullanılabilecek neden ve sonuçları belirlemelidir.” “Her ne kadar Büyük İşleyiş programının esas ilgi alanı kanser biyolojisi olsa da programın genel hedefi yeni bir tür bilime yönelik teknolojiler geliştirmektir. Bu bilim türünde araştırma aşaması ile emsalsiz bütünlük ve tutarlılığa sahip nedensel ve açıklayıcı modeller, gerek otomatik gerekse yarı otomatik bir şekilde birleştirilmektedir. Kanser yolakları bu nedensel ve açıklayıcı modellere sadece bir örnektir.”

“Büyük verilerin toplanması giderek otomatikleşmektedir. Buna karşın büyük mekanizmaların yaratılması hala insan çabası gerektirdiğinden, bilginin parçalanması ve dağıtılması giderek zorlaşmaktadır. Büyük mekanizmaların oluşturulma işleminin otomatikleştirilmesi, bilimin nasıl yapıldığını da değiştirebilir.”

Kaynakları kısıtlı olan ABD Savunma Bakanlığının nasıl bilim yapıldığını değiştirmek amacıyla akademisyenlere milyonlarca dolar kaynak ayırması ne kadar etkindir? Bu program kanser biyolojisini daha iyi anlamak için hükümet veya özel sektör tarafından desteklenen diğer projelerle çakışmakta mıdır? Peki ya Büyük İşleyiş programı taahhüt edilen 42 aylık ömrünü tamamladığında, ister otomatik ister başka bir şekilde kanser yolaklarının sebep ve etkilerini belirleyemezse ne olur?

Google internetin tümünü indekslemeye ihtiyaç duyduğundan örnekleme yapma gibi bir şansı yoktu ve bu yüzden büyük veri araçlarını geliştirdi. Bu durum diğer pek çok Web tabanlı işletme ve bunların veri madenciliğine yönelik özel ihtiyaçları için de geçerliydi. LinkedIn’deki “Tanıyor Olabileceğiniz Kişiler” özelliğini geliştiren Peter Skomorach, bu şirketteki deneyimlerini şu şekilde genelleştirmektedir: “Birçok özellik ve sinyal (örneğin bir sosyal ağdaki ilişkiler) sadece devasa büyüklükte veri toplanarak gözlenebilir ve bunları daha küçük örneklemler çekerek belirlemek mümkün olmaz. MapReduce ve Hadoop gibi teknolojilerin ortaya çıkmasından önce, bu şekildeki büyük veri setlerinin işlenmesi çok zor, zaman alıcı ve hataya meyilliydi. Bu teknolojilerle bağlantılı olarak ortaya çıkan araç ve uygulamalar günümüzde büyük veri teknolojileri olarak adlandırılmaktadır.”

Bazı durumlarda az miktarda veriye sahip olmaktansa daha fazla veriye sahip olmak daha iyidir. Diğer durumlarda daha az veri (yani özenle oluşturulmuş bir örnek) tonlarca veriden daha iyidir. Buna karşın diğer durumlarda deneyim ya da bir yeteneğe dayalı olan sezgiler, ister çok ister az miktardaki veriden daha iyidir.

Ancak devlet ve akademik çevredeki büyük veri inananlarının sapkınlığı, özel sektördeki veri bilimcileri tarafından genellikle desteklenir ve kışkırtılır. Büyük veri vaizleri nerede çalışırlarsa çalışsınlar, “devrimin” güç ve vaadiyle sarhoş bir halde; topluma, bilime, işletmelere ve daha fazla veri ile güya “geliştirilebilecek” her şeye yardım ettiklerini sanırlar. İşte bu yüzden insanların duygularıyla oynamakta veya yasaları çiğnemekte bir sorun görmezler. Yaptıkları her şey büyük verinin etkinliği adınadır.

Büyük veri dini Silikon Vadisindeki otoriteler tarafından desteklenmektedir. Öte yandan yine Silikon Vadisi abartılı iddiaları hafifletecek; daha fazla verinin ne zaman işe yarar, ne zaman para israfı olduğunu açıklayacak güç ve bilgiye sahiptir. Silikon Vadisi, devlet-akademik çevre cephesinin büyük veri tarafından daha fazla şişirilmesini durdurmaya yardımcı olabilir.

Eisenhower’ın uyarısı ve öğüdü bugün de geçerli olmakla birlikte; farklı bir bağlamda farklı bir cepheye de uygulanabilir: “Dengeleri kaymış bir gücün feci şekilde yükselme ihtimali vardır ve olacaktır. Bu bileşimin ağırlığının özgürlüklerimizi veya demokratik işleyişimizi tehlikeye atmasına asla izin vermemeliyiz. Hiçbir şeyi garantide görmemeliyiz.”

Yazar: Gil Press – Forbes

Çeviren: Hüseyin Güler, Alican Özer

Kaynak: http://www.forbes.com/sites/gilpress/2014/09/09/the-government-academia-complex-and-big-data-religion/

Reklamlar