Web Tarayıcıları için Etkili Tohum URL Seçimi ve Kapsam Genişletme Algoritması
International journal of advances in engineering and pure sciences (Online), cilt.35, sa.1, ss.27-38, 2023 (TRDizin)
- Yayın Türü: Makale / Tam Makale
- Cilt numarası: 35 Sayı: 1
- Basım Tarihi: 2023
- Doi Numarası: 10.7240/jeps.1174193
- Dergi Adı: International journal of advances in engineering and pure sciences (Online)
- Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM), Sobiad Atıf Dizini
- Sayfa Sayıları: ss.27-38
- Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
- Hatay Mustafa Kemal Üniversitesi Adresli: Evet
Özet
Web, hızla büyüyen ve her türden verilerin bulunduğu devasa bir veri kaynağıdır. Kullanıcılar bu veri kaynağından istedikleri verileri almak için arama motorlarını kullanırlar. Arama motorları bu verileri web tarayıcıları ile elde ederler. Web tarayıcıları web sayfalarındaki tek düzen kaynak bulucuları (URL-Uniform Resource Locator) izleyerek ulaştıkları tüm sayfalardaki verileri alır, ayrıştırır ve indekslerler. Web tarama sürecindeki en önemli konular hangi URL’lerden başlanacağı ve taramanın kapsamıdır. Bu yazıda kapsamı tüm web olan genel bir tarayıcının tohum URL seçim ve kapsam genişletme yöntemleri sunulmuştur. Tohum URL seçiminde 102 farklı ülkede ziyaretçinin günlük harcadığı saat, ziyaretçi başına günlük sayfa görüntüleme sayısı, aramadan gelen trafiğin yüzdesi ve toplam bağlı site sayısı temel alınarak oluşturulmuş üç farklı tohum URL seti oluşturulup detaylı bir şekilde performansları analiz edilmiştir. Ayrıca kapsamı hızlı bir şekilde genişletmek için link skoruna dayalı yeni bir tarama algoritması önerilmiş, tohum URL setleri kullanılarak taramalar yapılmış, karşılaştırılmış ve detaylı analizleri yapılmıştır.