İstatistiksel İletişim Topluluğu'nun Bilgi Paylaşım ve Üretim Ortamı

Posts tagged ‘facebook’

Devlet–Akademik Çevre Cephesi ve Büyük Veri Dini

Devlet–Akademik Çevre Cephesi ve Büyük Veri Dini

Büyük veriyle birlikte tedirgin bir yaz geçirdik. İlk olarak büyük veri “bilimi” adına Facebook’un 700.000 kullanıcısının duygularını bir deneyle manipüle ettiği haberi geldi. Ardından Guardian, ABD Savunma Bakanlığı’nın (Department of Defense – DoD) ileri araştırma kolu olan İleri Savunma Projeleri Araştırma Ajansı’na (Defense Advanced Research Projects Agency – DARPA) benzer çalışmalar için para ödediğini, araştırmacıların “haberi olmayan katılımcıları takip ettiğini ve onların ne cevap verdiklerini tespit ettiğini” söyledi. ABD Ulusal Güvenlik Dairesi (National Security Agency – NSA) ile ilgili yeni haberler yaz boyunca ortaya çıkmaya devam etti: Bir Washington Post araştırmasına göre NSA’nın ABD dijital ağlarında takip ettiği sıradan internet kullanıcı sayısı, kanuni olarak izlenen yabancıların sayısını büyük oranda aştı. Bununla birlikte Snowden Wired’a NSA’nın siber savaş programı MonsterMind’ın denizaşırı ülkelerden ABD’deki insanlara yönelik tüm özel iletişime sanal olarak erişebildiğini açıkladı.

Facebook veri bilimcileri tarafından yürütülen bu deneyin ve DoD’nin desteklediği araştırmacıların en çok eleştirilen yanı etik açıdan tartışmalı olmalarıydı. Bu tartışmanın odak noktası NSA’in yaptığı izlemelerin yasal açıdan tartışmalı olmasıydı. Buna karşın her iki olayda da NSA veya DARPA’daki federal hükümet çalışanlarının, akademisyenlerin ve özel sektör veri bilimcilerinin herhangi bir etik veya yasal normu çiğnediklerine inanmadıkları nadiren eleştiriliyordu: Onların beyinleri Büyük Veri Diniyle yıkanmıştı.

BigData_2267x1146_white_Wikimedia

Daha büyük olan daha iyidir ve veri anlamsız bir etkinliğe sahiptir. Daha çok veriye sahip oldukça bu veriden daha çok beklenmeyen anlamlar ortaya çıkacak ve daha önce görülmemiş yapılar keşfedilecektir. İşte bu büyük veri dinidir. Bu dinin bir inananı olarak siz; etik ve kuralları, inanmayanlara göre farklı bir ışık altında görürsünüz. Ayrıca yeni bir bilimsel hareketin bir parçası olarak; hipotezler ve geleneksel istatistiksel tekniklerin arkasındaki varsayımlar gibi can sıkıcı şeyleri ortadan kaldırırsınız. Soru sormanıza gerek yoktur, sadece çok sayıda veri toplayıp verinin konuşmasına izin verirsiniz.

Kate Crawford şöyle yazmış: “Büyük veri çalışmalarında araştırma sorusunun önemi veya araştırma bulgularının anlamlılığı dikkate alınmadan, devasa büyüklükte örneklemlere değer vermeye yönelik bir eğilim var. Ancak duygu bulaşması çalışmalarından öğrendiğimiz bir şey varsa o da çok sayıda katılımcı ve verinin iyi bir araştırma yapmak için yeterli olmadığıdır.”

İyi bir araştırma olmamanın birçok nedeni (örneğin buraya bakın) vardır ama belki de en önemlisi araştırmanın çok fazla veriye dayalı olmasıdır. Pew Araştırma Şirketi baş editörü Rich Morin şöyle diyor: “Çok büyük örnekleme dayalı çalışmalar istatistiksel olarak anlamlı sonuçlar üretebilir ama aynı ölçüde abestirler. Basit bir aritmetik bu durumu göstermektedir: Örneklem ne kadar büyükse, herhangi bir farklılığın istatistiksel olarak anlamlı olması için, bu farkın o derece küçük olması yeterlidir – diğer bir deyişle iki değerin birbirinden farklı olma ihtimali çok olasıdır. … ve bu araştırmacıların yaptığı gibi 689.003 gözlemlik muazzam büyüklükte bir tesadüfî örneğe sahipseniz, çok küçük farklılıklar bile standart anlamlılık testlerini geçerler. İşte sırf bu yüzden istatistik öğreticileri nesillerdir öğrencilerini “istatistiksel anlamlılığın”, “gerçekten ama gerçekten önemli” olduğu anlamına gelmediği konusunda uyarırlar.”

Buna rağmen büyük veri inananları geleneksel istatistiki tekniklerin sınır ve kısıtlamalarını yok saymaktadırlar. Bu inananlar “Facebook ve Facebook’un sahip olduğu veri, sosyal psikolojinin son on yılda kuantum sıçraması yapmasını mümkün kılmıştır” şeklinde kapsamlı iddialar üretmektedirler.

Eğer bu “kuantum sıçramaları” hakkında daha fazla bilgi edinmek isterseniz, Kashmir Hill’in sosyal ağ çalışmalarının bulgularını incelediği çalışmasına göz atabilirsiniz. Bu çalışmada şunun gibi ifadeler yer almaktadır: Arkadaşlarının paylaştığını gördüğün bir bilgi varsa, bu bilgiyi daha yüksek olasılıkla etrafındakilere yayarsın; insanlar söylenti yaymayı severler; çirkin şeyler bu çirkin şeylerle ilgili gerçeğin ortaya çıkarılmasından daha hızlı ve daha fazla yayılırlar; dijital raporlara kaydetmediğimiz şeyler düşünürüz.

Sosyal ağlar üzerinde ne okunduğu göz önüne alındığında, son bulgu biraz şaşırtıcıdır. Yine de bu ve benzer çalışmaların bulguları kesinlikle “sosyal psikolojide kuantum sıçramaları” olarak adlandırılamaz. Hill’in bu tip çalışmalardaki gizlilik ihlalinin önemini ölçtüğü “WTF puanına” biz de araştırma bulgularının bayağılığını ölçen “aptal bilim puanını” veya “büyük ölçüde abeslik puanını” ekleyebiliriz.

Bir önceki yazımda tartıştığım üzere, bulguların bayağılığı ve abesliği, büyük veri rahiplerini “toplumu yöneten matematiksel yasaları” keşfettiklerini iddia etmekten alıkoymaz. Yine de bu şekilde vaaz verme işe yarar ve sırf deneyinizi 700.000 kişi üzerinde yaptığınız için önemli dergilerde makalenizi kolayca yayınlayabilirsiniz. Görünüşe göre bilimsel bir makalenin iyiliği hakkında hüküm vermek için başta gelen yeni ölçüt; çalışmadaki denek sayısının çokluğudur.

Eğer sosyal bilimlerde doğa bilimlerinde kullanılan titiz ölçütler olmadığından; bu durumla sadece sosyal bilimlerde karşılaşıldığını düşünüyorsanız, büyük veri dininin yaygın etkisinin farkında değilsiniz demektir. Newsweek’ten Megan Scudellari yakın zamanlarda yayınladığı bir makalesinde “önce veri toplayıp ardından sorular sormak, doğal dünya hakkında keşif yapmak için heyecan verici ve yeni bir yoldur” inanışına değinmektedir. Scudellari bu inanışı ABD Ulusal Sağlık Enstitüleri’nin (National Institutes of Health – NIH) 40 milyon dolarlık İnsan Beyni Yol Haritası Projesi’nin (Human Connectome Project – HCP) baş araştırmacısı Davin Van Essen, NIH’nin veri bilimi bölümü ortak yöneticisi Philip Bourne ve diğerlerine atfetmektedir. Scudellari yayınladığı mükemmel makalede bu inanışa yönelik karşıt görüş ve tartışmalara yer vermektedir.

Büyük veri rahiplerinin Charles Darwin’in “spekülasyon olmadan iyi ve özgün gözlem olmaz” sözünü ve Albert Einstein’ın “neyi gözleyebildiğimizi belirleyen teoridir” tespitini çok iyi bildiklerinden eminim. Ama niçin eskilerden bahsedelim ki? Büyük veri rahiplerinin söyleyeceği üzere onlarda bugün sahip olduğumuz araçlar ve teknoloji yoktu; bu yüzden kendilerini spekülasyon ve teoriyle sınırlamak zorundaydılar. Şimdilerde biz önce veri toplayıp, sonrasında veriler tarafından henüz cevaplanmamış bilimsel sorular sorduğumuz yeni bir bilimsel “paradigma” planlıyoruz. Çünkü büyük veri günümüzde Delfi’nin Oracle’ıdır, bize konuşur ve “bilinmeyen bilinmeyenleri” ortaya çıkarır. (Çevirenin Notu: Yazar burada büyük veriyi Yunan mitolojisindeki Delfi kâhinlerine (Oracle of Delphi) benzetmektedir)

“Ölçek”, “otomatik bilim” ve “verinin anlamsız etkinliği” hakkındaki tüm bu konuşmayla ilgili aklımdaki kilit sorun,  “etkinlik” sorunudur. Scudellari New York Üniversitesinden sinir bilimci J. Anthony Moushon’dan şu alıntılamayı yapmaktadır: “Bir saman yığınının içinde bir yerlerde azıcık buğday var diye çok fazla veri toplamanız gerektiği fikri, fazla paranın kötü harcanmasına bir örnektir.”

Fanatik bir şekilde daha ve daha fazla veri peşinde koşarken çok fazla parayı israf etme tehlikesi vardır. Büyük verinin devlet-akademik çevre cephesinin bağ noktası olduğunu fark ettiğimizde bu tehlikenin daha korkutucu bir hal aldığını görürüz. Eisenhower “ciddi sonuçlarını” uyarmakla birlikte, askeri-sanayi cephesinin kalkınmasını “zorunlu ihtiyaç” olarak kabul etmektedir. Bunun aksine devlet-akademik çevre cephesinin gelişmesindeki ana sebep “büyük para”, “büyük devlet” ve “büyük bilimde” olduğu şekliyle “büyüğün” peşinde koşmaktır. Bu arayışta akademik çevre tarafı devlete daha da büyümek için giderek fazla neden sunmakta ve karşılığında finansman ve istihdam olanaklarından daha fazla yararlanmaktadır. Son zamanlarda büyük veri dini on yıllar sürecek bu eğilimlerin önemli bir hızlandırıcısı haline gelmiştir.

Bu bağlamda verilebilecek pek çok örnekten iyi bir tanesi de ABD Savunma Bakanlığının “Büyük İşleyiş (Big Mechanism)” programıdır. Aşağıdaki alıntılardan görüleceği üzere 42 Milyon Dolarlık bu programın büyüleyici bir tanımı vardır:

“Büyük İşleyiş programının çözmeye çalışacağı ilk büyük problem; hücrelerin kanserli olmalarına ve kalmalarına yol açan moleküler etkileşimlerin meydana getirdiği kanser yolaklarıdır. Program temelde üç teknik alana sahiptir:

Bilgisayarlar kanser yolakları parçalarının çıkarılmasına yönelik kanser biyolojisinde yayınlanmış bildiri ve makaleleri okumalıdır. Sonra bu parçaları görülmemiş ölçek ve kesinlikle bir araya getirip bütün halindeki yolakları oluşturmalı ve bu yolakların etkileşimini çözmelidir. Son olarak bilgisayarlar kanseri önlemek ve kontrol etmek için kullanılabilecek neden ve sonuçları belirlemelidir.” “Her ne kadar Büyük İşleyiş programının esas ilgi alanı kanser biyolojisi olsa da programın genel hedefi yeni bir tür bilime yönelik teknolojiler geliştirmektir. Bu bilim türünde araştırma aşaması ile emsalsiz bütünlük ve tutarlılığa sahip nedensel ve açıklayıcı modeller, gerek otomatik gerekse yarı otomatik bir şekilde birleştirilmektedir. Kanser yolakları bu nedensel ve açıklayıcı modellere sadece bir örnektir.”

“Büyük verilerin toplanması giderek otomatikleşmektedir. Buna karşın büyük mekanizmaların yaratılması hala insan çabası gerektirdiğinden, bilginin parçalanması ve dağıtılması giderek zorlaşmaktadır. Büyük mekanizmaların oluşturulma işleminin otomatikleştirilmesi, bilimin nasıl yapıldığını da değiştirebilir.”

Kaynakları kısıtlı olan ABD Savunma Bakanlığının nasıl bilim yapıldığını değiştirmek amacıyla akademisyenlere milyonlarca dolar kaynak ayırması ne kadar etkindir? Bu program kanser biyolojisini daha iyi anlamak için hükümet veya özel sektör tarafından desteklenen diğer projelerle çakışmakta mıdır? Peki ya Büyük İşleyiş programı taahhüt edilen 42 aylık ömrünü tamamladığında, ister otomatik ister başka bir şekilde kanser yolaklarının sebep ve etkilerini belirleyemezse ne olur?

Google internetin tümünü indekslemeye ihtiyaç duyduğundan örnekleme yapma gibi bir şansı yoktu ve bu yüzden büyük veri araçlarını geliştirdi. Bu durum diğer pek çok Web tabanlı işletme ve bunların veri madenciliğine yönelik özel ihtiyaçları için de geçerliydi. LinkedIn’deki “Tanıyor Olabileceğiniz Kişiler” özelliğini geliştiren Peter Skomorach, bu şirketteki deneyimlerini şu şekilde genelleştirmektedir: “Birçok özellik ve sinyal (örneğin bir sosyal ağdaki ilişkiler) sadece devasa büyüklükte veri toplanarak gözlenebilir ve bunları daha küçük örneklemler çekerek belirlemek mümkün olmaz. MapReduce ve Hadoop gibi teknolojilerin ortaya çıkmasından önce, bu şekildeki büyük veri setlerinin işlenmesi çok zor, zaman alıcı ve hataya meyilliydi. Bu teknolojilerle bağlantılı olarak ortaya çıkan araç ve uygulamalar günümüzde büyük veri teknolojileri olarak adlandırılmaktadır.”

Bazı durumlarda az miktarda veriye sahip olmaktansa daha fazla veriye sahip olmak daha iyidir. Diğer durumlarda daha az veri (yani özenle oluşturulmuş bir örnek) tonlarca veriden daha iyidir. Buna karşın diğer durumlarda deneyim ya da bir yeteneğe dayalı olan sezgiler, ister çok ister az miktardaki veriden daha iyidir.

Ancak devlet ve akademik çevredeki büyük veri inananlarının sapkınlığı, özel sektördeki veri bilimcileri tarafından genellikle desteklenir ve kışkırtılır. Büyük veri vaizleri nerede çalışırlarsa çalışsınlar, “devrimin” güç ve vaadiyle sarhoş bir halde; topluma, bilime, işletmelere ve daha fazla veri ile güya “geliştirilebilecek” her şeye yardım ettiklerini sanırlar. İşte bu yüzden insanların duygularıyla oynamakta veya yasaları çiğnemekte bir sorun görmezler. Yaptıkları her şey büyük verinin etkinliği adınadır.

Büyük veri dini Silikon Vadisindeki otoriteler tarafından desteklenmektedir. Öte yandan yine Silikon Vadisi abartılı iddiaları hafifletecek; daha fazla verinin ne zaman işe yarar, ne zaman para israfı olduğunu açıklayacak güç ve bilgiye sahiptir. Silikon Vadisi, devlet-akademik çevre cephesinin büyük veri tarafından daha fazla şişirilmesini durdurmaya yardımcı olabilir.

Eisenhower’ın uyarısı ve öğüdü bugün de geçerli olmakla birlikte; farklı bir bağlamda farklı bir cepheye de uygulanabilir: “Dengeleri kaymış bir gücün feci şekilde yükselme ihtimali vardır ve olacaktır. Bu bileşimin ağırlığının özgürlüklerimizi veya demokratik işleyişimizi tehlikeye atmasına asla izin vermemeliyiz. Hiçbir şeyi garantide görmemeliyiz.”

Yazar: Gil Press – Forbes

Çeviren: Hüseyin Güler, Alican Özer

Kaynak: http://www.forbes.com/sites/gilpress/2014/09/09/the-government-academia-complex-and-big-data-religion/

Canlı İnternet İstatistikleri

İnternetle ilgili istatistikleri canlı sunan siteler, yeterince hızlı hareket edebilmenin bile geri kalmak anlamına geldiğinin basit birer örneği gibi.

İnternet ve onunla ilgili güncel istatistiklere ulaşmak yakın zamana kadar kolay değildi. Çoğunlukla araştırma şirketlerinin ya da kar amacı gütmeyen kurumların raporlarına bel bağlanıyordu. Ancak artık bu konuda da “canlı” veriler sunan web siteleri oluşmaya başladı. Hatta bazı web siteleri, anlık güncelleme yapan bu istatistikleri sunan sayaçlarını lisanslıyorlar. Yani dileyen parasını ödemek koşuluyla bu bilgileri kendi web sitesinde kullanabilir.
Bu tür web sitelerinden olan internetlivestats.com sitesine göre bu yazının kaleme alındığı gün itibariyle internetle ilgili güncel bazı bilgiler şöyle.
• Toplam internet kullanıcı sayısı: 2 milyar 979 milyon 958 bin 700

• Toplam web sitesi sayısı: 1 milyar 71 milyon 893 bin

• Bugün gönderilen eposta adedi: 98 milyar 805 milyon

• Bugün yapılan Google arama adedi: 1 milyar 860 milyon

• Bugün yazılan blog yazıları: 1 milyon 705 bin

• Bugün gönderilen tweet sayısı: 315 milyon 925 bin

• Bugün Youtube’da izlenen video sayısı: 3 milyar 639 milyon 910 bin

• Bugün Instagram’a yüklenen foto sayısı: 55 milyon 155 bin

• Bugün Tumblr sitesine yükleme sayısı: 61 milyon 631 bin

• Aktif Facebook kullanıcı sayısı: 1 Milyar 307 milyon 348 bin

• Aktif Google+ kullanıcı sayısı: 646 milyon 940 bin

• Aktif Twitter kullanıcı sayısı: 299 milyon 660 bin

• Aktif Pinterest kullanıcı sayısı: 47 milyon 500 bin

• Bugün yapılan Skype arama sayısı: 63 milyon 444 bin

• Bugün hacklenen web sitesi sayısı: 21 bin 500

• Bugün satılan bilgisayar adedi: 360 bin 700

• Bugün sayılan akıllı cep telefonu adedi: 1 milyon 785 bin 622

• Bugün satılan tablet adedi: 330 bim 180

• Bugünkü internet trafiği: 969 milyon Gb

Aynı web sitesinde bir saniyede yapılan işlem adetleri de yer almakta. Örneğin 1 saniyede

• Gönderilen tweet adedi: 7 bin755

• Instagram’a yüklenen foto adedi: Bin 351

• Skype’ta yapılan konuşma adedi: Bin 548

• İnternet Trafiği: 23 bin 575 Gb

• Google’da yapılan arama adedi: 45 bin 713

• Youtube’de izlenen video adedi: 89 bin 224

• Gönderilen eposta adedi: 2 milyon 337 bin 373

Bu istatistikleri yukarıdaki gibi hareketsiz bir kağıt levha üzerinde değil de sürekli artan birer sayaç olarak bir ekranda izlemenin yarattığı etki daha farklı oluyor. Yeterince hızlı hareket edememenin geride kalmak anlamına geldiğini bu sayaçları izlerken kolayca anlayabiliyor insan.

Tanol Türkoğlu – Cumhuriyet Bilim ve Teknik

Adsız