Yazılarımız

OfisData

SEO LOG ANALİZİ YAPMAK BOT DAVRANIŞI

Terminal pencere kesitinde server access log dosyası satırları monospace yazıyla IP zaman damgası URL ve Googlebot user agent etiketleriyle vurgulanmış

Google Search Console size hangi sayfanızın indexlendiğini söyler, ama Googlebot'un sitenizde gerçekte ne yaptığını söylemez. Hangi sayfayı kaç kez ziyaret etti, hangi URL'leri görmezden geldi, hangi sayfada hata aldı — bu bilgiler sunucu log dosyalarında saklı. Çoğu SEO uzmanı bu altın madenini hiç açmadan kariyer yapıyor.

Server log analizi, teknik SEO'nun en derin katmanı. Doğru yapıldığında siten Googlebot'un gözünden nasıl görünüyor, crawl bütçen nereye akıyor, indexlemen neden takıldı; tüm bu soruların cevabı çıkar. Botun davranışını yorumlarken Google arama dokümantasyonundaki crawl ve indeksleme açıklamaları sağlam bir zemin sağlar. Yapısal sorunları, robots.txt hatalarını, sunucu performans problemlerini görünür kılar.

Bu yazı log dosyasının yapısı, Googlebot davranışlarının yorumlanması, crawl budget kavramı ve log analizinden gerçek SEO içgörüsü çıkarmak üzerine.

Server Log Nedir, Ne İçerir

Web sunucusu her isteği bir log satırına yazar. Tipik bir Apache veya Nginx access log satırı:

66.249.66.1 - - [12/May/2026:08:30:15 +0300] "GET /urun/kahve-makinesi HTTP/1.1" 200 4523 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Bu satırda olanlar:

  • 66.249.66.1: İsteği yapan IP adresi (Googlebot'a ait).
  • [12/May/2026:08:30:15]: Zaman damgası.
  • GET /urun/kahve-makinesi: HTTP metodu ve URL.
  • 200: HTTP yanıt kodu.
  • 4523: Yanıt boyutu (byte).
  • "-": Referer (yok).
  • "Mozilla/5.0 ... Googlebot/2.1 ...": User agent — Googlebot olduğunu söylüyor.

Bir gün içinde küçük siteler binlerce, büyük siteler milyonlarca log satırı üretir. Bunları analiz etmek için araç gerekiyor.

Googlebot User Agent'larını Tanımak

Google tek bir bot değil; farklı amaçlar için farklı user agent'lar var:

BotAmacı
Googlebot SmartphoneMobile-first indexing — ana indeksleme botu.
Googlebot DesktopMasaüstü versiyonları indexleme.
Googlebot ImageGörsel arama indexlemesi.
Googlebot VideoVideo arama indexlemesi.
Googlebot NewsGoogle News için.
AdsBot-GoogleReklam landing page kalite kontrolü.
Mediapartners-GoogleAdSense reklam yerleşimi.
Google-InspectionToolSearch Console URL Inspect aracı.

Önemli: Bazı kötü niyetli bot'lar Googlebot kimliğine bürünür. Doğrulama için ters DNS lookup yapılır: IP'nin googlebot.com veya google.com'a çözümlenip çözümlenmediği kontrol edilir.

Sekiz Googlebot user agent tipi karşılaştırma tablosunda Smartphone Desktop Image Video News AdsBot Mediapartners ve InspectionTool satırları amaç açıklamaları ile birlikte

Crawl Budget — Sınırlı Kaynak

Google sınırsız bot kaynağına sahip değil. Her site için bir "crawl budget" ayrılır: belirli bir zaman içinde kaç URL crawl edileceği. Crawl budget belirlenirken:

  • Site otoritesi (PageRank)
  • Sunucu hızı (Googlebot yorulmuyor)
  • İçerik güncelleme sıklığı
  • Önceki crawl'larda alınan hata oranı

Küçük site (1000 sayfa) için crawl budget hiç sorun değil; tüm site rahatlıkla taranır. Büyük site (1 milyon sayfa) için crawl budget kritik; Google önemli sayfaları taramadan önemsizleri taramayı tercih edebilir.

Crawl budget israfı belirtileri:

  • Eski/silinmiş sayfalara hâlâ crawl request
  • Filtreli URL'lere yüksek crawl trafiği
  • Parameter'lı duplicate URL'lere crawl
  • 404 sayfalara tekrar tekrar request
  • Önemli yeni içerik geç indexleniyor

Log Analiz Araçları

Manuel olarak gigabyte'lık log dosyalarını incelemek mümkün değil. Tipik araçlar:

  • Screaming Frog Log Analyser: Standalone; orta-büyük site için yeterli. Bot identification, response code, URL analysis.
  • OnCrawl: Enterprise log analizi + crawl analizi birlikte. Görsel raporlama güçlü.
  • Sitebulb Log Analysis: Sitebulb'in modülü; pratik SEO insights.
  • JetOctopus: Enterprise log + crawl.
  • Botify Log Analyzer: Enterprise; çok büyük siteler için.
  • Custom (BigQuery / Athena): Çok büyük site için cloud çözümler. SQL ile analiz.

Küçük-orta ölçek için Screaming Frog Log Analyser pratik başlangıç; lisans bir defalık, devam eden bedel yok.

Temel Sorular ve Cevapları

Log analizinden çıkarılacak temel sorular:

1. Hangi URL'ler crawl ediliyor, hangileri görmezden geliniyor?

Top 100 en çok crawl edilen URL'lere bak. Şaşırtıcı sayfalar mı görüyorsun (eski filtre URL'leri, silinmesi gerekenler)? Tersine, önemli stratejik sayfaların listede yok mu?

2. Hangi response code'lar veriliyor?

KodAnlamıDikkat Edilecek
200Başarılıİdeal.
301Permanent redirectZincir varsa kötü.
302Temporary redirectKalıcı içeriklerde yanlış.
304Not modifiedCache verimli, iyi.
404Not foundAz kabul edilebilir; yüksek ise sorun.
410GoneSilinmiş içerik için doğru.
500Server errorAcil müdahale.
503Service unavailableAcil; sunucu sorun.

404 oranı %5'ten düşük olmalı; %10 üstü ciddi sorun. 500 ve 503 minimal olmalı; düzenli oluşuyorsa server sorunu var.

3. Crawl frekansı nasıl dağılıyor?

Bir sayfa kaç günde bir crawl ediliyor? Ana sayfa muhtemelen günlük, derin sayfalar haftalık veya aylık. Çok önemli bir sayfa nadir crawl ediliyorsa o sayfa Google için "düşük öncelikli" sinyali var demektir.

4. Crawl bütçesi nereye gidiyor?

Toplam crawl request'lerinin yüzde kaçı:

  • Gerçek içerik sayfalarına?
  • JavaScript, CSS, görsel dosyalarına?
  • Filtreli/parametreli URL'lere?
  • 404 hatalarına?
  • Redirect zincirlerine?

İdeal dağılım %60-70 gerçek içerik, %20-30 asset, geri kalan minimum. Eğer crawl'ın %40'ı 404'lere gidiyorsa ciddi temizlik gerekiyor.

Crawl bütçesi dağılım donut grafiği gerçek içerik asset filtreli URL 404 ve redirect dilimleriyle yan yana yüzde etiketleri ve sağda yüzde 40 atık uyarı kartı

5. Hangi bölümler crawl edilmiyor?

Sitenin belirli klasörü (örn. /blog/) hiç crawl edilmiyorsa robots.txt'te yanlış disallow var veya iç linkleme yetersiz. Önemli alanlar haftalarca crawl görmüyorsa indexleme problem yaşar.

Crawl Budget Optimizasyonu

Log analizi sonucu crawl budget verimsiz kullanılıyorsa müdahale yöntemleri:

  • Robots.txt ile bloklama: Filtreli URL'ler, ürün parametreleri, search sonuç sayfaları gibi index edilmemesi gereken bölümleri Disallow et.
  • Meta robots noindex: Robots.txt'te bloklamayıp sayfayı index'ten çıkarmak istiyorsan noindex etiketi.
  • Canonical: Duplicate URL'leri tek bir canonical'a yönlendir; Google diğerlerini öncelik vermez.
  • XML sitemap: Önemli sayfaları sitemap'e ekle; Google önceliklendirir.
  • Internal linking: Önemli sayfalara çok link, önemsizlere az link. Crawl önceliği iç link sayısına bağlı.
  • URL parametre yönetimi: Search Console'da artık yok (kapatıldı) ama canonical ve robots.txt ile pratik yönetim.
  • 404 temizliği: Eski silinen URL'lerin 410 dönmesi; Google daha hızlı unutur.

Bot Sıklığı vs Bot Karması

İki farklı metrik:

  • Crawl frequency: Bir URL ne sıklıkta crawl ediliyor.
  • Crawl rate: Saatte/gündeki toplam request sayısı.

Site karakter taşıyıcı (yüksek otorite + sık güncellenen içerik) ise Google sık crawl eder. Düşük otoriteli, az güncellenen site için crawl seyrek.

Crawl rate'i artırmak için doğrudan müdahale yok; ama dolaylı yollar:

  • Yeni içerik düzenli yayınla (blog, ürün, kategori)
  • Sitemap'i otomatik güncel tut
  • İç linkleme kuvvetlendir
  • Sunucu hızı iyi (Googlebot yavaş sunucudan kaçınır)

Sunucu Performansı ile Bot İlişkisi

Google sunucu yavaşsa crawl rate'i düşürür. Bunun belirtileri:

  • Server response time yüksek (örn. 2 saniye+)
  • 500 ve 503 hatalarının artışı
  • Crawl rate görece azaldı

Log analiziyle TTFB (Time To First Byte) ölçülebilir. Yavaş sayfalar tespit edilir; optimizasyon önceliği belirlenir.

Çözüm: caching, CDN, database optimizasyonu, kod profiling. Server hızı sadece kullanıcı deneyimi için değil; SEO için de doğrudan faktör.

Mobile Crawl Önceliği

Google mobile-first indexing yapıyor. Log dosyasında Googlebot Smartphone request'leri Googlebot Desktop'tan çok daha fazla olmalı. Eğer tersini görüyorsan:

  • Site mobile-friendly olmayabilir
  • Mobile versiyonda teknik sorun olabilir
  • Robots.txt mobile user agent'ı yanlış bloklayabilir

Bu kontrol log analizinin standart bir adımı.

JavaScript Rendering

Google iki aşamalı crawl yapar:

  1. İlk crawl: HTML çekilir, parse edilir. Sayfaya JavaScript bağımlıysa kısmi index.
  2. Render queue: Daha sonra (saatler, günler içinde) Googlebot Chromium ile sayfayı render eder; JavaScript-generated içerik index'e girer.

JavaScript-heavy site (React, Vue SPA) için bu gecikme dezavantaj. Log analizinde Googlebot request'lerinden hangilerinin JS asset'i, hangilerinin HTML çağırdığı izlenir. JS asset oranı çok yüksekse server-side rendering veya prerendering gerekli.

Diğer Botların Yönetimi

Log dosyası sadece Google değil; tüm bot trafiğini gösterir. Diğer önemli botlar:

  • Bingbot: Microsoft Bing.
  • YandexBot: Rusya pazarında Yandex.
  • Baiduspider: Çin pazarı için Baidu.
  • DuckDuckBot: DuckDuckGo.
  • FacebookExternalHit: Facebook link önizlemesi için.
  • TwitterBot: Twitter card.
  • LinkedInBot: LinkedIn.
  • AhrefsBot, SemrushBot, MozBot: Üçüncü taraf SEO araçları.

SEO araç bot'ları gerekiyor mu? Sen Ahrefs veya Semrush kullanıyorsan onların botu sitende dolaşmalı (rakip verisi için). Kullanmıyorsan robots.txt ile bloklamak server kaynağını korur ama nadiren büyük fark yaratır.

Spam/kötü niyetli bot'lar (örn. ContentKing'i taklit edenler, content scraper'lar) tespit edildiğinde firewall veya robots.txt seviyesinde bloklanır. Doyurucu bir SEO öğrenme kaynağı log analizi ve crawl optimizasyonunu pratik örneklerle ele alır.

Aylık Log Analiz Disiplini

Log analizi tek seferlik değil; sürekli disipline ait:

  1. Aylık: Bot dağılımı, response code yüzdeleri, top crawl edilen URL'ler.
  2. Aylık: Crawl budget verim metriği — gerçek içerik / toplam request.
  3. Üç aylık: Crawl frequency analizi; hangi sayfalar nadir taranıyor.
  4. Yarı yıllık: Bot sahteliği kontrolü; reverse DNS doğrulaması ile fake bot'lar bloklanır.
  5. Yılda 1-2 kez: Robots.txt ve sitemap revizesi log verilerine göre.

Bu disiplini olan ekipler teknik SEO'da bir adım önde. Search Console verisi yetersiz kalır; log verisi gerçeği gösterir. Üretim ortamında sürdürülen log analiz disiplini, ciddi SEO problemleri ortaya çıkmadan çözmeyi sağlar; reaktif değil proaktif yaklaşım.

Yaygın Bulgular

Log analizinde sık karşılaşılan sürpriz bulgular:

  • Site genelinde önemli oranda 404 trafiği — eski yapı kalıntıları.
  • Bir bölüm hiç crawl görmüyor — robots.txt veya iç linkleme problemi.
  • Filtre kombinasyonlu URL'ler crawl bütçesini yutuyor.
  • Eski mobil subdomain (m.example.com) hâlâ crawl ediliyor — temizlenmemiş.
  • Mediapartners-Google daha fazla geliyor — AdSense alıyor ama Search değil.
  • Sitemap'te olmayan sayfalar crawl ediliyor — sitemap eksik.
  • Sitemap'te olan sayfalar crawl edilmiyor — sayfa güvensiz veya sinyali zayıf.

Her bir bulgu somut SEO görevi anlamına gelir. Log analizi yapan SEO ekibi, sadece Search Console'a güvenen ekipten birkaç adım önde.

 Vimaj