Google, internet üzerinde ulaşabildiği her web sitesi, her bağantı, dosya tipi vs. ne varsa ona ulaşmaya, sahip olup sunmaya yönelik geliştirilmiş dünyanın en üstün bot’unu geliştirmiş ve bununla dünyanın en çok kazanan şirketi olmuştur. Google’ın tıpkı Cocacola gibi gizli formülü de işte bu dünyayı, yetinmeyip uzayı da tarayan bot’tur(Googlebot).
Googlebot, Google tarafından kullanılan bir arama bot’udur. Bu bot web’deki dökümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi ( index ) yaratır. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.txt adlı dosya yaratarak [1] ,ya da sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz. (Wikipedia)
Googlebot sizi dinler ama istediğinizi yapmayabilir
Sitenize bir meta etiketi eklediğinizde Google sitenizi taramayı bırakmaz, bazı durumlarda daha fazla taramaya bile başlar keza robots.txt dosyası da taramanın olmayacağı anlamına gelmez. Arama motoru robotları için yazılan komutlar onların arama sonuçları sayfasında siteyi gösterip göstermemesini, bağlantıları takip edip etmemesini söyler sadece, taramamasını değil.
Yine yakın zamanda benzer canonical’leştirmek(yenilenmemesi) için standart kabul edilmiş olan link rel canonical aslında Google botunun çok da iplemediği bir şeydir, işe yaramadığını söyleyemem yalnız tek başına buna güvenerek sitenin yenilenen sayfalara karşı optimize olacağını sanmak sizin için hüsran olacaktır.
Googlebot’un anlayacağı dilden konuşmak
Aslında bir bot da olsa o normal bir ziyaretçi gibi girilebilecek yerlere girer, sitede ulaşılmayan bir yere ulaşabilecek süper güçleri yoktur. Normal bir ziyaretçiden farkı mühendislerin onu olabilecek tüm bağlantı çeşitlerini aklında tutup üst üste, bıkmadan usanmadan denemeler yapması için geliştiriyor olması, yani basitçe yazabilirim Googlebot eğer bir şifre kırıcı olarak geliştirilmiş olsaydı sanırım dünya üzerinde kıramayacağı şifre olmazdı.
Dolayısıyla Googlebot ile onun anlayacağı dilden konuşmak istiyorsanız onu iyi tanıyıp, onun gibi düşünmelisiniz. Basit bir örnek; site/birdosya.pdf adresindeki dosyayı sitenizde yayımladığınızda, site/gizlidosya.pdf in tehlikede olacağını bilmek dijital hayatınızı daha güvenli hale getirir.
Her türlü durumda bot’a mesaj gönderebilirsiniz
Çalıştığım bir web sitesinde sistemin bir bölümü çok ama çok uzun sür ile cachelendiği için her yeni sayfada bot’a aynı mesajı vermek zorunda kalıyor. Bu yüzden sayfa daha sonra silinmiş olsa bile 200/OK mesajı vererek bot’a sayfada değişiklik olduğunu bildirme şansı yok, normalde sayfa silindiğinde 404/NotFound veya 301,302 vs. ile adres değişti, artık yok, bir süre yok gibi mesajlar verilmesi gerekir.
Klasik, genelde herkes tarafından bilinen yöntemlerle şans yoktur ama bir uzmansanız bunun çok fazla yöntemi olduğunu biliyorsanız sizin şansa ihtiyacınız yoktur, yaparsınız.
Eşeğinizi sağlam kazığa bağlayın
Böyle bir durumda en basit yapılabilecek şey HTTP Status’a X-Robots-Tag: noindex, noarchive, nosnippet demek olabilir mesela. Yalnızca silinen sayfalar için ekstra bir HTTP status verip artık bu sayfayı aramada gösterme dersiniz, bu tür yüzlerce sayfanız varsa emin olun robots.txt ile uğraşmaktan çok daha iyidir. Yalnızca bir örnekti, botlara söz geçirmek için onlarca yöntem olduğunu unutmayın, head içerisinde meta ekleyip olmasını istediğiniz şeyin olmasını beklemek bana biraz saflık gibi geliyor, eşeğinizi sağlam kazığa bağlamadan dua edip olmasını beklemeyin.
Hayırlı işler.