Tumblr ve WordPress verilerini yapay zeka araçlarına açtı

404 Media tarafından elde edilen belgelere göre Tumblr’ın Midjourney ve OpenAI ile yapmış olduğu bir anlaşmanın parçası olarak kullanıcıların verilerini derlediğini ortaya koydu, buna göre Tumblr kullanıcılarının metin, görsel vb. tüm verilerine OpenAI ve Midjourney erişecek, dolayısıyla bu yapay zeka araçları bu veriler ile eğitilmiş olacak, bunun hemen hemen aynısının WordPress.com blogları ve hesapları için de geçerli olduğu öğrenildi.

Bu durumda rahatlıkla; yapay zeka araçlarını biz şimdiye kadar ürettiğimiz içeriklerle eğitmiş olacağız diyebiliriz. Aslında İnternette veri sıkıntısı yok daha doğrusu önemli olan verinin niceliğinin ne kadar büyük olduğundan çok sizin o büyük veriyi işleyebilme kapasiteniz, burada önemli olan veriyi derlemek ki Tumblr ve WordPress bloglarından veri çekmek daha derli toplu ve işlenebilir halde veri demek oluyor, o blog verileri bu yüzden değerli. Tahminime göre yani tamamen sallıyorum bugün bir kuantum bilgisayar bile şu an internette var olan, sürekli çoğalan ve hiç durmayan veri akışını takip etmekte zorlanır çünkü birincisi işlemcisinin mutlaka bir sınırı olacaktır her ne kadar kuzey kutbuna da koysan bilgisayarı bir limiti var, 2.si her şey yetse de fiber kabloların bağlantı hızının bir limiti var 🙂 Her neyse felsefeye de girip başınızı ağrıtmadan bu mevzuyu kapatayım. Kuantum bilgisayarlar yapay zeka ile birleştiğinde cidden insanlar olarak çok savunmasız kalacağımızı görmek için ortalamanın bir tık üzerinde IQ sahip olmak yeterli bence, ortalama derken Türkiye ortalaması zira son bilgilere göre Türkiye’deki insanların ortalama IQ seviyesi gorillerle aynı. Şu haberi de incelemenizi isterim –> https://wolkanca.com/abd-adalet-bakanligi-yapay-zeka-bas-sorumlusu/

Tumblr’da bilindiği üzere görsel yoğunlukta bir veri mevcut, WordPress.com bloglarında ise metin. Tumblr’ın henüz bu gif ve meme sitelerinin olmadığı dönemden beri inanılmaz iyi bir görsel arşivi var, WordPress.com’da ise gerçekten yapay zekanın eğitimi için her çeşit bilgiye ulaşabileceği makaleler mevcut.

Bu gelişme, yapay zeka teknolojilerinin gelişiminde önemli bir adım olarak görülürken, içerik üretimi ve dijital medya alanında yeni ufuklar açıyor. Yapay zekanın, geniş ve çeşitli veri kaynaklarından öğrenmesine olanak tanıyan bu hamle, teknolojinin daha doğru ve insan merkezli içerikler üretebilmesi için büyük bir potansiyel sunuyor. Bu strateji, aynı zamanda yapay zekanın yaratıcılığını ve adaptasyon yeteneğini artırarak, dijital medya dünyasında nasıl bir dönüşüm yaratabileceğinin de bir göstergesi.

Tumblr ve WordPress, kullanıcı verilerini yapay zeka şirketleri OpenAI ve Midjourney’e satmak üzere anlaşmalar yapmaya hazırlanıyor hatta satmış diyenler de olmuş henüz net bilgi sahibi değiliz. 404 Media’nın raporuna¹ göre, bu platformların ana şirketi Automattic, AI şirketlerinin modellerini eğitmek için veri sağlama konusunda bir anlaşmayı tamamlamak üzere. Hangi verilerin dahil edileceği net olmasa da, rapor Automattic’in başlangıçta öngörülenden fazlasını sunmaya hazır olduğunu öne sürüyor. Tumblr ürün yöneticisi Cyle Gage’den sızdırıldığı iddia edilen bir iç gönderi, Automattic’in anlaşmada yer almaması gereken özel veya ortakla ilgili verileri göndermeye hazırlandığını öneriyor. Tartışmalı içerikler arasında, kamu blog gönderilerindeki özel gönderiler, silinmiş veya askıya alınmış bloglar, cevaplanmamış (dolayısıyla kamuoyuna açıklanmamış) sorular, özel yanıtlar, açık olarak işaretlenmiş gönderiler ve premium ortak bloglarından (örneğin Apple’ın eski müzik sitesi gibi) içerikler yer alıyor.

Verilerin halihazırda yapay zeka şirketlerine gönderilip gönderilmediği belli değil. Engadget, rapor hakkında yorum istemek için Automattic’e e-posta gönderdi. Şirket, “Yalnızca WordPress.com ve Tumblr’da barındırılan ve kapsam dışında kalmayı seçmemiş sitelerdeki herkese açık içeriği paylaşacağız” şeklinde bir açıklamayla yanıt verdi. İnternette yayınladığınız postların ve gönderilerin yapay zeka eğitimi için kullanılacağını öğrenmek şaşırtıcı olabilir, ancak işler artık bu şekilde işliyor denebilir. Zira internetteki bir şeyin artık gizlilik ve güvenliği koruyacağı düşüncesi pek de geçerli değil. Bu durumda OpenAI yapay zekayı hepimiz beraber şekillendiriyoruz da denebilir.

Tumblr ve WordPress İçerikleri OpenAI ve Midjourney Eğitimi için Kullanılacak

İç gönderi, Automattic mühendislerinin dışlanması gereken gönderi kimliklerinin bir listesini hazırladığını öne sürüyor. Verilerin AI şirketlerine zaten gönderilip gönderilmediği net değil.

Engadget, rapor hakkında yorum istemek için Automattic’e e-posta gönderdi. Şirket, yayımlanan bir açıklamayla yanıt verdi ve “WordPress.com ve Tumblr’da barındırılan sadece kamu içeriğini, çıkmayı seçmeyen sitelerden paylaşacağız” dedi. Açıklama, yasal düzenlemelerin şu anda AI şirketlerinin web tarayıcılarının kullanıcıların çıkma tercihlerine uymasını gerektirmediğini belirtiyor.

Automattic’in açıklamasının son satırı, rapor edilen anlaşmalarla uyumlu görünüyor. Automattic: “Seçilmiş AI şirketleriyle, topluluğumuzun önemsediği şeylerle – atıf, çıkma seçenekleri ve kontrol – planları uyumlu olduğu sürece doğrudan çalışıyoruz, ortaklıklarımız tüm çıkma ayarlarına saygı gösterecek. Ayrıca, yeni çıkan kişileri düzenli olarak ortaklarımıza güncelleyerek geçmiş kaynaklardan ve gelecekteki eğitimlerden içeriklerinin çıkarılmasını talep edeceğiz.” diye yazdı.

Şirketin Çarşamba günü kullanıcıların verilerinin AI şirketleri dahil üçüncü taraflar tarafından eğitimde kullanılmasını engellemeyi vaat eden yeni bir çıkma aracı başlatmayı planladığı bildiriliyor. 404 Media, araç için Automattic tarafından hazırlanan iddia edilen bir iç SSS’yi inceledi ve “Başlangıçta çıkarsanız, sitenizi yasaklı listeye ekleyerek tarayıcıların içeriğinize erişimini engelleyeceğiz. Fikrinizi daha sonra değiştirirseniz, yeni çıkan kişileri de güncelleyerek geçmiş kaynaklardan ve gelecekteki eğitimlerden içeriklerinin çıkarılmasını ortaklarımızdan talep edeceğiz” yanıtını içeriyor.

AI şirketlerinden verilerin kaldırılmasını “istemek” olarak tanımlayan ifadeleme dikkat çekiyor.

Automattic’in AI başkanı Andrew Spittle’in, aracı kullanırken veri silme güvenceleri hakkında bir personel sorusuna yanıt olarak hazırladığı iddia edilen bir iç belge, “Mevcut ortaklarımızı düzenli aralıklarla çıkan herkes hakkında bilgilendireceğiz. Bu sürecin, mevcut tercihlere dayanarak geçmiş içeriğin dışlanması için düzenli olarak savunma yapmamızı sağlayan sürekli bir süreç olmasını istiyorum. İçeriğin silinmesini ve gelecekteki eğitim çalışmalarından çıkarılmasını talep edeceğiz. Şu ana kadar yaptığımız görüşmelere dayanarak ortaklarımızın bunu onurlandıracağına inanıyorum. Bunu saklamalarının onlara genel olarak çok şey kazandırmayacağını düşünüyorum.”

Yani, bir Tumblr veya WordPress kullanıcısı AI eğitiminden çıkmayı talep ederse, Automattic “isteyecek” ve “savunacak”. Ve şirketin AI şefi, AI şirketlerinin “şu ana kadarki konuşmalarımıza dayanarak” bunun kendi çıkarlarına uygun olduğunu düşünüyor. ( 🙂 güvence!)

AI veri eğitim anlaşmaları, bugünkü kaygan çevrimiçi yayıncılık manzarasında suda yüzmeye çalışan web siteleri için kazançlı bir fırsat haline geldi. (Tumblr’ın personeli, 2023’ün sonlarında iddia edildiği üzere bir iskelet ekibine indirildi.) Geçen hafta, Google, platformun geniş kullanıcı oluşturulan içerik bilgi tabanında eğitim yapmak üzere Reddit ile (sonraki halka arzından önce) bir anlaşma yaptı. Bu arada, OpenAI geçen yıl AI modellerini eğitmek için üçüncü taraflardan veri setleri toplamak üzere bir ortaklık programı başlattı.

Automattic’in hangi içerikleri satacak?

404 Media, incelediği belgelerde her bir şirkete satılacak veri türlerinin belirtilmediğini bildirdi. Ayrıca bu anlaşmanın yalnızca Tumblr’da gelecekte yapılacak paylaşımları mı etkileyeceği yoksa geçmiş içerikleri de kapsayıp kapsamayacağı da belirsiz. Yapay zeka şirketleri, modellerini eğitmek için “kamuya açık” içeriği yaygın bir şekilde kullandıkları için eleştiriliyor, çünkü çevrimiçi olarak kamuya açık olanların çoğu hala telif hakkına tabi.

OpenAI’nin web sitesindeki bir destek makalesine göre, “ChatGPT ve diğer hizmetlerimiz, diğer kaynakların yanı sıra internette kamuya açık olan bilgiler kullanılarak geliştirilmiştir” deniyor. Görünüşe göre, OpenAI zaten Tumblr’da bir zamanlar kamuya açık olan tüm içeriği kazımış ve kullanmıştır. Bu durum göz önüne alındığında, mevcut anlaşma OpenAI ve Midjourney’in gelecekteki tüm Tumblr içeriğinin kullanımı için de ödeme yapmayı teklif ettikleri bir tür mea culpa olarak hizmet edebilir.

Automattic, 404 Media’nın anlaşmayla ilgili yorum taleplerine yanıt vermedi ancak “Kullanıcı Tercihlerine Saygı” başlıklı bir açıklama yayınladı ve “Şu anda, en büyük teknoloji şirketlerinden olanlar da dahil olmak üzere, büyük yapay zeka platformu tarayıcılarını varsayılan olarak engelliyoruz ve yenileri piyasaya sürüldükçe listelerimizi güncelliyoruz” dedi. OpenAI’nin algoritmasını yıllardır kamuya açık içerik üzerinde eğittiği düşünüldüğünde önemli olan sitenin tarayıcıları ne zaman engellemeye başladığı belli değil.

Nasıl devre dışı bırakırsınız?

Herkese açık Tumblr içeriğinizi üçüncü taraflarla paylaşmaktan vazgeçmek için, çalıştırdığınız her bir blogun ayarlarında yeni bir “Üçüncü taraf paylaşımını önle” seçeneğini açmanız gerekir. Bu işlemin Tumblr uygulaması üzerinden değil, bir web tarayıcısı üzerinden yapılması gerekiyor. Bu güncellemeler Tumblr’ın kullanıcı gizliliği hakkındaki destek makalesine eklenmiştir.

Geçmişte blogunuzda arama yapılmasını engellemeyi seçtiyseniz, yeni “üçüncü taraf paylaşımını engelle” seçeneği varsayılan olarak zaten açık olacaktır.

Peki ya bu ayarı şimdi açmaktan vazgeçip üç ay sonra açmayı tercih ederseniz? 404 Media’nın 23 Şubat’ta eriştiği bir belgede, bir Tumblr çalışanının bu konuyla ilgili bir soru sorduğunu bildirdi. “Bir kullanıcı verilerinin üçüncü taraflarla paylaşılmamasını tercih ederse, mevcut veri ortaklarımızın böyle bir değişiklikten haberdar edileceğine ve verilerini kaldıracağına dair güvencemiz var mı?”

Automattic’in yapay zeka başkanı Andrew Spittle şu yanıtı verdi: “Mevcut iş ortaklarımızı, vazgeçen herkes hakkında düzenli olarak bilgilendireceğiz… Bunun, mevcut tercihlere dayalı olarak geçmiş içeriğin hariç tutulmasını düzenli olarak savunduğumuz devam eden bir süreç olmasını istiyorum. İçeriğin silinmesini ve gelecekteki eğitim çalışmalarından çıkarılmasını isteyeceğiz. Bu noktaya kadar onlarla yaptığımız görüşmelere dayanarak ortaklarımızın buna saygı göstereceğine inanıyorum.”

Bu normal mi?

Kesinlikle, en azından yeni normal gibi görünüyor. OpenAI, Associated Press’ten haber hikayelerini lisanslıyor ve CNN, Time ve Fox ile de aynı şeyi yapmak için görüşmelerde bulunduğu bildiriliyor. Reddit, içerik veritabanından para kazanmak için Google ile birlikte çalışıyor.

Automattic’in kendi verilerini satmaya başlaması an meselesiydi, özellikle de Tumblr’da ne kadar para kaybettiği düşünüldüğünde. Site 17 yıllık tarihi boyunca hiçbir zaman kârlı olmadı ve Automattic bunu tersine çevirmeyi başaramadı. Kasım ayında TechCrunch, kaynakların Automattic’in başka yerlerindeki projeleri desteklemek için zor durumdaki siteden yönlendirildiğini bildirildi.

Kaynaklar: