Azərbaycanca AzərbaycancaDeutsch Deutsch日本語 日本語Lietuvos Lietuvosසිංහල සිංහලTürkçe TürkçeУкраїнська УкраїнськаUnited State United State
Destek
www.wikipedia.tr-tr.nina.az
  • Vikipedi

Bu maddede birçok sorun bulunmaktadır Lütfen sayfayı geliştirin veya bu sorunlar konusunda tartışma sayfasında bir yorum

Evaluation measures (information retrieval)

Evaluation measures (information retrieval)
www.wikipedia.tr-tr.nina.azhttps://www.wikipedia.tr-tr.nina.az
TikTok Jeton Satışı
Bu maddede birçok sorun bulunmaktadır. Lütfen sayfayı geliştirin veya bu sorunlar konusunda bir yorum yapın.
Bu maddenin mevcut adı . Lütfen ilgili başlık(lar)a bakınız. (Mart 2025)
Bu madde olması gerekenden az içermektedir veya içermemektedir. Lütfen bu sayfadan ilgili maddelere çalışın. (Mart 2025)

Bir bilgi erişim (Information Retrieval – IR) sistemi için kullanılan değerlendirme ölçütleri; bir indeksin, arama motorunun ya da veritabanının kullanıcının sorgusunu karşılayacak şekilde kaynak koleksiyonundan ne kadar etkili sonuçlar döndürdüğünü ölçer. Bu nedenle bu ölçütler, bilgi sistemlerinin ve dijital platformların başarısı için temel bir rol oynar.

Bir sistemin kullanıcılar açısından ne kadar etkili olduğunu belirleyen en önemli faktör, sistemin bir sorguya verdiği sonuçların genel olarak ne kadar ilgili (relevant) olduğudur. Bir IR sisteminin başarısı; ilgililik, hız, kullanıcı memnuniyeti, kullanılabilirlik, verimlilik ve güvenilirlik gibi çeşitli ölçütlerle değerlendirilebilir. Değerlendirme ölçütleri; çevrimdışı veya çevrimiçi, kullanıcı tabanlı veya sistem tabanlı gibi farklı kategorilere ayrılabilir. Ayrıca, gözlemlenen kullanıcı davranışları, test koleksiyonları, precision ve recall gibi metrikler ve önceden hazırlanmış benchmark test setlerinden elde edilen skorlar gibi yöntemleri içerebilir.

Bir bilgi erişim sistemi için yapılan değerlendirmeler aynı zamanda kullanılan ölçütlerin geçerliliğini de içermelidir. Yani, bu ölçütlerin neyi ölçmek üzere tasarlandıkları ve gerçekten bunu ne kadar iyi ölçtükleri ile sistemin hedeflenen kullanım senaryosuna ne kadar uygun olduğu da ayrıca değerlendirilmelidir. Bu tür ölçütler genel olarak iki bağlamda kullanılır: Çevrimiçi deneyler, kullanıcıların arama sistemiyle olan etkileşimlerini değerlendirirken; çevrimdışı değerlendirmeler, bilgi erişim sisteminin durağan ve sabit bir veri koleksiyonu üzerindeki performansını ölçer.

Arka Plan

Bilgi erişimini kolaylaştırmak amacıyla geliştirilen indeksleme ve sınıflandırma yöntemleri, en eski kütüphanelere ve bilgi koleksiyonlarına kadar uzanan köklü bir geçmişe sahiptir. Ancak bu yöntemlerin etkinliğinin sistematik olarak değerlendirilmesi, esas olarak 1950’li yıllarda başladı. Bu dönemde, askeri, devlet ve eğitim alanlarında araştırma üretiminin hızla artmasıyla birlikte bilgisayarlı katalogların da devreye girmesi, bu değerlendirme sürecini tetikledi. O yıllarda birden fazla indeksleme, sınıflandırma ve kataloglama sistemi kullanılmaktaydı ve bu sistemlerin üretimi oldukça maliyetliydi. Dahası, hangisinin daha etkili olduğu da net bir şekilde bilinmiyordu.

İngiltere’de Cranfield’daki Havacılık Koleji’nde kütüphaneci olan Cyril Cleverdon, bu sorunu ele almak üzere, basılı indeksleme ve bilgi erişim yöntemleri üzerine bir dizi deney başlattı. Bu deneyler daha sonra “Cranfield Paradigması” ya da “Cranfield Testleri” olarak anıldı ve uzun yıllar boyunca IR (bilgi erişim) sistemlerinin değerlendirilmesinde bir standart haline geldi. Cleverdon’un geliştirdiği “bilinen öğe arama” (known-item searching) testi, bir IR sisteminin, belirli bir arama için gerçekten ilgili ya da doğru olan belgeleri geri getirip getirmediğini test etmek amacıyla tasarlanmıştı. Onun çalışmaları, IR değerlendirmesi için gereken bazı temel bileşenleri de ortaya koydu: bir test koleksiyonu, bir sorgu kümesi ve önceden belirlenmiş ilgili öğeler seti. Bu öğeler birlikte kullanılarak precision (kesinlik) ve recall (geri çağırma) gibi metrikler hesaplanabiliyordu.

Cleverdon’un bu yaklaşımı, 1992 yılında başlatılan ve oldukça başarılı olan Text Retrieval Conference (TREC) serisi için de bir model işlevi görmüştür.

Uygulamalar

Bilgi erişim sistemlerinin değerlendirilmesi, internet arama motorları, web sitesi içi aramalar, veri tabanları ve kütüphane katalogları dahil olmak üzere her türlü arama motorunun başarısı açısından merkezi bir rol oynar. Bu değerlendirme ölçütleri; bilgi davranışı çalışmaları, kullanılabilirlik testleri, işletme maliyetleri ve verimlilik analizleri gibi birçok alanda kullanılır. Test koleksiyonları ile birlikte kullanılan değerlendirme metrikleri, bilgi erişim araştırmalarının odak noktalarından biri olmuştur. Bu alanda özellikle değerlendirme ölçütlerine odaklanan çeşitli akademik konferanslar düzenlenmektedir. Bunların en bilinenleri arasında Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) ve NTCIR yer alır.

Çevrimiçi Ölçütler

Çevrimiçi metrikler genellikle arama günlüklerinden (search logs) elde edilir. Bu tür metrikler, özellikle A/B testi gibi deneysel yöntemlerde başarıyı ölçmek için sıkça kullanılır.

Oturum Terk Etme Oranı (Session Abandonment Rate)

Oturum terk etme oranı, bir arama oturumunun tıklama ile sonuçlanmama oranını ifade eder. Yani kullanıcı bir şey arar ancak çıkan sonuçlardan hiçbirine tıklamazsa bu oturum terk edilmiş sayılır. Bu durum genellikle ya sonuçların ilgisiz olduğuna ya da kullanıcının aradığını bulamadığına işaret eder.

Tıklama Oranı (Click-Through Rate - CTR)

Tıklama oranı, belirli bir bağlantıya tıklayan kullanıcı sayısının, toplam görüntüleyen kullanıcı sayısına oranıdır. Genellikle bir e-posta kampanyasının ya da çevrimiçi reklamın başarısını ölçmek için kullanılır. Aynı şekilde, bir arama sonucunun ne kadar ilgi çekici olduğunu da ölçebilir.

Oturum Başarı Oranı (Session Success Rate)

Oturum başarı oranı, başarılı sonuçla tamamlanan kullanıcı oturumlarının oranını ifade eder. "Başarı" tanımı bağlama göre değişebilir. Arama özelinde, bu genellikle kullanıcının sonuçla ne kadar etkileşimde bulunduğuna göre değerlendirilir. Örneğin, bir sonucun URL’sini kopyalaması ya da snippet içeriğinden kopyalama yapması, oturumun başarılı olduğunu gösterebilir. Bu gibi durumlarda dwell time (kullanıcının bir sonuçta ne kadar zaman geçirdiği) önemli bir ölçüt olarak kullanılır.

Sıfır Sonuç Oranı (Zero Result Rate - ZRR)

Sıfır sonuç oranı, herhangi bir arama sonucunun hiç sonuç döndürmediği (boş SERP – Search Engine Results Page) oturumların oranıdır. Bu metrik, sistemin recall (geri çağırma) başarısında bir sorun olduğuna ya da kullanıcıların aradığı bilgilerin indeks içinde yer almadığına işaret edebilir. Bu tür durumlar sistemin kapsamının genişletilmesi gerektiğini gösterir.

Bu ölçütler, kullanıcı davranışlarını anlamak, arama motorlarını iyileştirmek ve bilgi erişim sistemlerini daha verimli hale getirmek için vazgeçilmez araçlardır.

Çevrimdışı Ölçütler

Çevrimdışı metrikler, genellikle belirlenmiş değerlendirme oturumları sırasında oluşturulur. Bu oturumlarda uzman değerlendirme yapan kişiler, arama sonuçlarının kalitesini puanlandırır. Puanlama, ikili (relevant/non-relevant – ilgili/ilgisiz) veya çok seviyeli (örneğin, 0'dan 5'e kadar) ölçekler kullanılarak yapılabilir. Ancak, pratikte sorgular tam olarak net olmayabilir ve farklı derecelerde alaka düzeyi olabilir.

Örneğin, "mars" kelimesiyle yapılan bir aramanın anlamı belirsizdir. Kullanıcının Mars gezegenini mi, Mars çikolatasını mı, Bruno Mars’ı mı yoksa Roma tanrısı Mars’ı mı aradığını değerlendiren kişi bilemez. Bu gibi durumlar, bilgi erişim sistemlerinde alaka düzeyinin (relevance) neden kritik bir ölçüt olduğunu gösterir.

Kesinlik (Precision)

Kesinlik (precision), getirilen belgeler arasında gerçekten kullanıcının bilgi ihtiyacına uygun olanların oranıdır. Matematiksel olarak şu şekilde ifade edilir:

precision = ∣ { ilgili belgeler } ∩ { getirilen belgeler } ∣ / ∣ { getirilen belgeler } |

Yani, arama motorunun döndürdüğü sonuçlar arasında gerçekten ilgili olanların yüzdesini ölçer.

  • Kesinlik, tüm getirilen belgeleri dikkate alır.
  • Ayrıca, yalnızca en üstteki belirli sonuçları değerlendirmek için Precision@k metriği kullanılabilir.

Burada dikkat edilmesi gereken bir nokta, bilgi erişimi alanında "kesinlik" teriminin, diğer bilim ve istatistik dallarındaki accuracy (doğruluk) ve precision (hassasiyet) kavramlarından farklı bir anlam taşımasıdır.

Not: “Precision” terimi, bilgi erişimi alanında istatistik veya diğer bilim alanlarındaki "doğruluk (accuracy)" ya da "hassasiyet (precision)" kavramlarından farklı bir anlama sahiptir. Bu farklılık göz önünde bulundurulmalıdır.

Geri Çağırma (Recall)

Geri çağırma (recall), sorguya gerçekten uygun olan belgelerin ne kadarının başarılı bir şekilde geri getirildiğini gösterir. Matematiksel ifadesi şöyledir:

recall = ∣ { ilgili belgeler } ∩ { getirilen belgeler } ∣ / ∣ { ilgili belgeler } |

Yani, sistemin gerçekten alakalı olan belgeleri ne ölçüde yakalayabildiğini gösterir.

  • İkili sınıflandırmada (binary classification), geri çağırma genellikle duyarlılık (sensitivity) olarak adlandırılır.
  • Bir sorgunun ilgili belgeyi döndürme olasılığı olarak da düşünülebilir.

Ancak, geri çağırma tek başına yeterli bir ölçüt değildir. Çünkü geri çağırmayı %100’e çıkarmak için sistemin tüm belgeleri sorgu sonucu olarak döndürmesi yeterlidir. Bu, tüm ilgili belgelerin getirildiğini garanti eder, ancak aynı zamanda birçok ilgisiz belgeyi de içerdiğinden kullanıcı için faydasız hale gelir. Bu yüzden, kesinlik (precision) ve geri çağırma (recall) birlikte değerlendirilmelidir.

Fall-out (Yanlış Alarm Oranı)

Fall-out, tüm ilgisiz belgeler arasından, sorguya rağmen yanlışlıkla getirilenlerin oranıdır.

fall-ou t= ∣ { ilgisiz belgeler } ∩ { getirilen belgeler } ∣ / ∣ { ilgisiz belgeler } ∣

  • Ne ifade eder? Kullanıcının ihtiyacıyla ilgisiz olan belgelerden kaçı, sistem tarafından yanlışlıkla getirilmiş?
  • Binary classification'da karşılığı: Fall-out, 1 - özgüllük (specificity)’ye eşittir. Yani ilgisiz bir belgenin yanlışlıkla sorguya dahil edilme olasılığıdır.
  • Not: Fall-out'u %0 yapmak kolaydır: Sorguya hiç belge döndürmeyerek.

F-Score / F-Measure (Harmonik Ortalama)

Precision (kesinlik) ve Recall (geri çağırma) değerlerinin ağırlıklı harmonik ortalamasıdır.

En yaygın olanı

F1 = (2 ⋅ precision ⋅ recall) / ( precision + recall )

  • F1 skoru, precision ve recall'a eşit ağırlık verir.
  • Tek başına precision ya da recall yeterli olmadığında ikisini birleştiren bir performans ölçütüdür.

Diğer varyantlar

  • F<sub>β</sub> formülü:

Fβ = ( 1+β^2 ) ⋅ ( precision ⋅ recall) / (β2 ⋅ precision + recall)

Burada β, kullanıcının recall’a ne kadar daha fazla önem verdiğini ifade eder:

F ölçüsü Anlamı
F<sub>2</sub> Recall (geri çağırma) 2 kat daha önemli
F<sub>0.5</sub> Precision (kesinlik) 2 kat daha önemli

Arka plan

Van Rijsbergen (1979) tarafından geliştirilen bu ölçüt, bir kullanıcının recall ve precision’a verdiği önceliği β ile ifade ederek performansı tek sayı ile değerlendirmeyi sağlar.

Bu metriklerin her biri, bilgi erişim sistemlerinin hem teknik performansını hem de kullanıcı deneyimini daha iyi anlamak ve geliştirmek için kritik öneme sahiptir. Özellikle arama sistemlerinin optimize edilmesinde bu tür çevrimdışı testler ve ölçümler, çevrimiçi analizlerle birlikte bütünleyici bir rol oynar.

Average Precision (AP) – Ortalama Kesinlik

Tanım: Average Precision, sıralı döküman listelerinde her k konumu için hesaplanan kesinliğin ortalamasıdır. Precision-recall eğrisinin altında kalan alan (AUC – Area Under Curve) olarak da düşünülebilir.

Formül: AveP=k=1∑nP(k)×rel(k)÷Toplam ilgili döküman sayısı

  • P(k): k konumundaki precision
  • rel(k): k konumundaki dökümanın ilgili (1) ya da ilgisiz (0) olma durumu

Açıklama: Precision değeri sadece ilgili dökümanlar için toplanır ve ilgili döküman sayısına bölünerek ortalama alınır. Bu sayede sıralama içinde ilgili dökümanların konumu da dikkate alınır.

Interpolasyonlu Average Precision: Bazı durumlarda, precision-recall eğrisindeki dalgalanmaları düzleştirmek için precision değeri, daha yüksek recall seviyelerinde görülen maksimum precision değeriyle değiştirilir.

pinterp(r)=r~≥rmaxp(r~)

Ardından aşağıdaki gibi hesaplanır:

AveP=111r∈{0,0.1,…,1.0}∑pinterp(r)

Not: PASCAL VOC yarışmaları 2010 yılına kadar bu yöntemi kullanmıştır.

Precision at K (P@k)

Tanım: Top k dökümandaki ilgili dökümanların oranıdır. Sadece ilk k sonuç dikkate alınır. Özellikle kullanıcıların genellikle ilk birkaç sonucu dikkate aldığı web aramalarında kullanışlıdır.

Formül: P@k=kI˙lk k sonuçtaki ilgili doküman sayısı

Avantaj: Kullanımı kolaydır, sadece ilk k dökümanın etiketlenmesi yeterlidir.

Dezavantaj: İlgili dökümanların konumu göz ardı edilir ve eğer k’dan daha az sayıda ilgili döküman varsa, mükemmel sistemler bile 1.0’a ulaşamayabilir.

R-Precision

Tanım: R ilgili döküman sayısı kadar döküman üzerinden precision ölçümüdür. Her sorgu için R farklı olabilir.

Formül: R-Precision=Rr

  • R: Sorguya karşılık gelen toplam ilgili döküman sayısı
  • r: İlk R sonuç içindeki ilgili döküman sayısı

Not: R-Precision, P@R ve Recall@R ile eşdeğerdir. Genellikle MAP (Mean Average Precision) ile yüksek korelasyona sahiptir.

Mean Average Precision (MAP)

Tanım: Tüm sorgular için hesaplanan Average Precision değerlerinin ortalamasıdır.

Formül: MAP=Q1q=1∑QAveP(q)

  • Q: Toplam sorgu sayısı
  • AveP(q): q numaralı sorgunun average precision değeri

Açıklama: Birden fazla sorgunun performansını ortalama bir metrikle ifade eder. Bilgi erişim sistemlerinin genel başarımını değerlendirmek için kullanılır.

Discounted Cumulative Gain (DCG) ve nDCG

Tanım: Sonuç listesindeki dökümanların alaka derecesini ve konumunu dikkate alır. Daha alt sıralarda bulunan dökümanlar cezalandırılır (logaritmik olarak düşürülür).

Formül: DCGp=i=1∑plog2(i+1)reli

  • rel_i: i’nci sıradaki dökümanın alaka düzeyi

Normalize Edilmiş DCG (nDCG): Farklı sorgular ya da sistemler arası karşılaştırma için ideal sıralamaya göre normalize edilir.

nDCGp=IDCGpDCGp

  • IDCG: En iyi (ideal) sıralamaya göre DCG

Not: nDCG değeri her zaman [0.0, 1.0] arasında olur. 1.0 değeri, sıralamanın tamamen ideal olduğunu gösterir.

Ölçüt Adı Açıklama
Kesinlik (Precision) Toplam doğru tahminlerin, sistemin tamamında verdiği pozitif tahminlerin oranıdır. Yani, arama sonuçları arasındaki doğru belgelerin oranını gösterir.
Geri Çağırma (Recall) Gerçek pozitiflerin, sistemin tespit ettiği pozitiflere oranıdır. Yani, arama sonuçlarında bulunan doğru belgelerin toplam doğru belgelerle oranıdır.
Fall-out (Yanlış Alarm Oranı) Yanlış pozitiflerin, tüm negatifler arasındaki oranıdır. Yani, alakasız belgelerin yanlış bir şekilde pozitif olarak sınıflandırılma oranını gösterir.
F-Score / F-Measure (Harmonik Ortalama) Kesinlik ve geri çağırma arasındaki dengeyi ölçen bir harmonik ortalama formülüdür. Genellikle, iki ölçüt arasındaki dengenin en iyi şekilde nasıl sağlanacağını gösterir.
Average Precision (AP) Bir sorgu için, her bir sıralama basamağında doğruluk hesaplanarak ortalaması alınır. Özetle, belirli bir sorgu için ortalama doğruluk değerini ölçer.
Precision at K (P@k) İlk k sonuçtaki doğruluk oranını ölçer. Bu, arama sisteminin kullanıcıya ilk k sonucu verdiğinde ne kadar doğru sonuç sunduğunu gösterir.
R-Precision Kullanıcı tarafından sağlanan gerçek pozitiflerin sayısına kadar olan ilk k sonuçta, arama sisteminin doğruluğunu ölçen bir metriktir. Bu, özellikle sıralama performansını analiz eder.
Mean Average Precision (MAP) Bir dizi sorgu için ortalama doğruluğun hesaplanmasıdır. Bu, her sorgu için ortalama doğruluğun hesaplanarak, tüm sorguların doğruluğunun ortalamasını alır.
Discounted Cumulative Gain (DCG) Sıralama performansını ölçen ve sıralamanın öncelikli sonuçlarını ödüllendiren bir metriktir. Erken sıralarda daha fazla ağırlık verir.
nDCG (Normalized DCG) DCG'nin normalleştirilmiş halidir. Sonuçların sıralamasına göre ödülleri normalleştirir, böylece farklı veri setlerinde karşılaştırmayı mümkün kılar.

Bu tablo, her bir ölçütün neyi ifade ettiğini ve hangi kriterlere göre değerlendirme yaptığına dair kısa bir özet sunar. Bu ölçütler, arama sistemlerinin ve öneri motorlarının performansını farklı açılardan analiz etmek için kullanılır.

Diğer Ölçütler

Ortalama Ters Sıra

Ortalama ters sıra, bir sıralamanın doğruluğunu ölçen bir yöntemdir. Bu ölçüt, doğru cevabın sıralamadaki konumunun tersine bakarak değerlendirme yapar. Bu yöntem, özellikle arama sonuçlarında sıralamanın ne kadar etkili olduğunu görmek için kullanılır.

bpref

Bpref, ilgili belgelerin ilgisiz belgelerden önce sıralandığı bir ölçüt olup, toplam sıralama değeri üzerinden yapılan bir hesaplama ile elde edilir. Bu ölçüt, sıralama başarısını daha doğru ölçmeyi amaçlar, çünkü sıralama önceliğini dikkate alır ve kullanıcının daha fazla alakalı belgeye erişimini artırmayı hedefler.

GMAP

GMAP, her konu için ortalama doğruluğun geometrik ortalamasını temsil eder. Bu ölçüt, her bir sorgu için ortalama doğruluğun birleşimini alarak daha genel bir başarı ölçüsü oluşturur. Bu, özellikle çok sayıda sorgu ve konu içeren sistemlerde performans değerlendirmesi için önemlidir.

Marjinal Alaka ve Belge Çeşitliliği Temelli Ölçütler

Marjinal alaka ve belge çeşitliliği, bilgi erişimi sistemlerinin ne kadar anlamlı ve çeşitli içerikler sunduğunu değerlendiren ölçütlerdir. Bu ölçütler, arama sonuçlarının sadece doğru değil, aynı zamanda çeşitli ve kapsamlı olmasını hedefler. Bu tür ölçütler, özellikle içerik çeşitliliği gerektiren görevlerde önemlidir.

Alaka ve Güvenilirlik Temelli Ölçütler

Günümüzde arama sonuçlarında yanıltıcı içeriklerin (örneğin, sahte haberlerin) etkisi büyük olmuştur. Bu tür içeriklerin sınıflandırılması için geliştirilen ölçütler, hem bilginin doğruluğunu hem de güvenilirliğini ölçmeye yöneliktir. Bu, özellikle güvenilir ve doğru bilgiye dayalı sonuçlar sağlamak isteyen sistemlerde kullanılır.

Hit Oranı

Hit oranı, arama sonuçlarının doğruluğunu ve kullanıcıların istenen bilgiye erişme oranını gösteren önemli bir metriktir. Bu oran, arama sonuçlarında kullanıcıların ne kadar başarıyla doğru belgelere ulaştığını gösterir.

Görselleştirme

Bilgi erişim performansını görselleştirme, sistemlerin başarısını daha anlaşılır hale getirmek için çeşitli grafikler ve diyagramlar kullanmayı içerir. Bazı görselleştirme türleri şunlardır:

  • Doğruluk ve Geri Çağırma Grafikleri Doğruluk ve geri çağırma arasındaki ilişkiyi görselleştiren grafikler, sistemin ne kadar doğru sonuçlar döndürdüğünü ve bu sonuçların ne kadarını kullanıcının ihtiyaçlarına uygun şekilde sunduğunu gösterir.
  • Ortalama Doğruluk Histogramları Farklı konularda ortalama doğruluğun görselleştirildiği histogramlar, her bir konu başlığına ilişkin sistem performansını karşılaştırmak için kullanılır.
  • Alıcı Karakteristik Eğrisi (ROC Eğrisi) ROC eğrisi, bir arama sisteminin doğruluk oranını ve yanlış pozitif oranını karşılaştırarak, modelin genel performansını görselleştirir.
  • Karışıklık Matrisi Karışıklık matrisi, modelin doğru ve yanlış tahminlerini düzenli bir şekilde göstererek, hangi sınıfların daha iyi tanımlandığını ya da karıştığını anlamayı sağlar.

Alaka Dışı Ölçütler

Arama sistemlerinin yalnızca alaka düzeyini değil, aynı zamanda diğer faktörleri de ölçmesi önemlidir. Bunlardan biri de sorguların zamanla nasıl değiştiği ve arama sisteminin kullanımının izlenmesidir.

Zaman Başına Sorgu

Arama sisteminde, belirli bir zaman diliminde gerçekleştirilen sorgu sayısını ölçmek, sistemin kullanım oranını takip etmek için önemli bir metriktir. Bu ölçüt, beklenmedik sorgu artışlarının tespit edilmesi veya diğer metriklerle karşılaştırmak için bir temel oluşturmak için kullanılabilir. Örneğin, sorgu trafiğinde bir artış, sorgu gecikmesindeki bir artışı açıklamak için kullanılabilir.

Ölçüt Adı Açıklama
Mean Reciprocal Rank (MRR) Bir sorgu için doğru cevabın sırasını tersine çeviren ve sıralama başarısını ölçen bir ölçüttür.
bpref İlgili belgelerin, alakasız belgelere göre ne kadar öncelikli sıralandığını gösteren, toplam sıralama tabanlı bir ölçüttür.
GMAP (Geometric Mean Average Precision) Her bir konu için ortalama doğruluğun geometrik ortalamasını alarak, performansı ölçer.
Marginal Relevance ve Document Diversity Marginal Relevance (Marjinal İlgililik) ve belgedeki çeşitlilik üzerinden ölçülen performans, sorgulama kalitesini değerlendirmede kullanılır.
Relevance ve Credibility Measures Özellikle sahte haberlerin arama sonuçlarında nasıl yer aldığını analiz eden ölçütlerdir.
Hit Rate Belirli bir arama sisteminde doğru cevabın bulunma oranını ölçer.
Visualization (Görselleştirme) Performans ölçütlerinin görsel temsilleri:
Precision-Recall Graphs Bir eksende doğruluk (precision), diğer eksende hatırlama (recall) ölçümleriyle yapılan grafikler.
Average Precision Histograms Çeşitli konular için ortalama doğruluğun histogramları.
Receiver Operating Characteristic (ROC) Curve Performansın görsel temsili, doğru pozitif oranı (TPR) ile yanlış pozitif oranını (FPR) karşılaştırır.
Confusion Matrix Modelin tahminlerinin doğruluğunu, yanlış sınıflandırmalarla birlikte görselleştiren matris.
Non-Relevance Measures İlgisiz sonuçların analiz edilmesi; örneğin, sorgu başına elde edilen sonuçların alakasızlık düzeyini ölçer.
Queries per Time Arama sistemine yapılan sorguların belirli bir zaman dilimindeki sayısını ölçer, kullanım yoğunluğunu izler ve sistemin kullanımını analiz eder.

Bu tablo, çevrimdışı ölçütlerin ve analiz yöntemlerinin bir özetini sunmaktadır. Her bir ölçüt, arama sistemlerinin performansını farklı açılardan değerlendirmek için kullanılır.

Kaynakça

  1. ^ Carterette, Ben; Voorhees, Ellen M. (2011), Lupu, Mihai; Mayer, Katja; Tait, John; Trippe, Anthony J. (Ed.), Overview of Information Retrieval Evaluation (İngilizce), Springer, ss. 69-85, doi:10.1007/978-3-642-19231-9_3, 4 Haziran 2018 tarihinde kaynağından arşivlendi, erişim tarihi: 17 Mart 2025 
  2. ^ Sanderson, P. Clough, M. (15 Haziran 2013). "Evaluating the performance of information retrieval systems using test collections". informationr.net (İngilizce). 9 Ekim 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2025. 
  3. ^ (PDF) https://www.diva-portal.org/smash/get/diva2:1503901/FULLTEXT01.pdf. 28 Haziran 2024 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 17 Mart 2025.  Eksik ya da boş |başlık= ()
  4. ^ Harman, Donna (2011). "Information Retrieval Evaluation". Synthesis Lectures on Information Concepts, Retrieval, and Services (İngilizce). doi:10.1007/978-3-031-02276-0. ISSN 1947-945X. 
  5. ^ Sanderson, Mark (2010). "Test Collection Based Evaluation of Information Retrieval Systems". Foundations and Trends® in Information Retrieval (İngilizce). 4 (4): 247-375. doi:10.1561/1500000009. ISSN 1554-0669. 17 Şubat 2025 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2025. 
  6. ^ Evaluation measures (information retrieval) (İngilizce), 24 Şubat 2025, 7 Mart 2025 tarihinde kaynağından arşivlendi, erişim tarihi: 17 Mart 2025 
  7. ^ (PDF) https://web.archive.org/web/20110504130953/http://sas.uwaterloo.ca/stats_navigation/techreports/04WorkingPapers/2004-09.pdf. 4 Mayıs 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 17 Mart 2025.  Eksik ya da boş |başlık= ()
  8. ^ International ACMSIGIR Conference on Research & Development in Information Retrieval (29th : 2006 : Seattle, Wash ) (2006). SIGIR (Seattle : 2006) : proceedings of the Twenty-Ninth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, University of Washington, Seattle, WA, USA. Internet Archive. New York, N.Y. : Association for Computing Machinery. ISBN . 

wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar

Bu maddede bircok sorun bulunmaktadir Lutfen sayfayi gelistirin veya bu sorunlar konusunda tartisma sayfasinda bir yorum yapin Bu maddenin mevcut adi tartismalidir Lutfen tartisma sayfasindaki ilgili baslik lar a bakiniz Mart 2025 Bu madde olmasi gerekenden az ic baglanti icermektedir veya hic icermemektedir Lutfen bu sayfadan ilgili maddelere ic baglanti vermeye calisin Mart 2025 Bir bilgi erisim Information Retrieval IR sistemi icin kullanilan degerlendirme olcutleri bir indeksin arama motorunun ya da veritabaninin kullanicinin sorgusunu karsilayacak sekilde kaynak koleksiyonundan ne kadar etkili sonuclar dondurdugunu olcer Bu nedenle bu olcutler bilgi sistemlerinin ve dijital platformlarin basarisi icin temel bir rol oynar Bir sistemin kullanicilar acisindan ne kadar etkili oldugunu belirleyen en onemli faktor sistemin bir sorguya verdigi sonuclarin genel olarak ne kadar ilgili relevant oldugudur Bir IR sisteminin basarisi ilgililik hiz kullanici memnuniyeti kullanilabilirlik verimlilik ve guvenilirlik gibi cesitli olcutlerle degerlendirilebilir Degerlendirme olcutleri cevrimdisi veya cevrimici kullanici tabanli veya sistem tabanli gibi farkli kategorilere ayrilabilir Ayrica gozlemlenen kullanici davranislari test koleksiyonlari precision ve recall gibi metrikler ve onceden hazirlanmis benchmark test setlerinden elde edilen skorlar gibi yontemleri icerebilir Bir bilgi erisim sistemi icin yapilan degerlendirmeler ayni zamanda kullanilan olcutlerin gecerliligini de icermelidir Yani bu olcutlerin neyi olcmek uzere tasarlandiklari ve gercekten bunu ne kadar iyi olctukleri ile sistemin hedeflenen kullanim senaryosuna ne kadar uygun oldugu da ayrica degerlendirilmelidir Bu tur olcutler genel olarak iki baglamda kullanilir Cevrimici deneyler kullanicilarin arama sistemiyle olan etkilesimlerini degerlendirirken cevrimdisi degerlendirmeler bilgi erisim sisteminin duragan ve sabit bir veri koleksiyonu uzerindeki performansini olcer Arka PlanBilgi erisimini kolaylastirmak amaciyla gelistirilen indeksleme ve siniflandirma yontemleri en eski kutuphanelere ve bilgi koleksiyonlarina kadar uzanan koklu bir gecmise sahiptir Ancak bu yontemlerin etkinliginin sistematik olarak degerlendirilmesi esas olarak 1950 li yillarda basladi Bu donemde askeri devlet ve egitim alanlarinda arastirma uretiminin hizla artmasiyla birlikte bilgisayarli kataloglarin da devreye girmesi bu degerlendirme surecini tetikledi O yillarda birden fazla indeksleme siniflandirma ve kataloglama sistemi kullanilmaktaydi ve bu sistemlerin uretimi oldukca maliyetliydi Dahasi hangisinin daha etkili oldugu da net bir sekilde bilinmiyordu Ingiltere de Cranfield daki Havacilik Koleji nde kutuphaneci olan Cyril Cleverdon bu sorunu ele almak uzere basili indeksleme ve bilgi erisim yontemleri uzerine bir dizi deney baslatti Bu deneyler daha sonra Cranfield Paradigmasi ya da Cranfield Testleri olarak anildi ve uzun yillar boyunca IR bilgi erisim sistemlerinin degerlendirilmesinde bir standart haline geldi Cleverdon un gelistirdigi bilinen oge arama known item searching testi bir IR sisteminin belirli bir arama icin gercekten ilgili ya da dogru olan belgeleri geri getirip getirmedigini test etmek amaciyla tasarlanmisti Onun calismalari IR degerlendirmesi icin gereken bazi temel bilesenleri de ortaya koydu bir test koleksiyonu bir sorgu kumesi ve onceden belirlenmis ilgili ogeler seti Bu ogeler birlikte kullanilarak precision kesinlik ve recall geri cagirma gibi metrikler hesaplanabiliyordu Cleverdon un bu yaklasimi 1992 yilinda baslatilan ve oldukca basarili olan Text Retrieval Conference TREC serisi icin de bir model islevi gormustur UygulamalarBilgi erisim sistemlerinin degerlendirilmesi internet arama motorlari web sitesi ici aramalar veri tabanlari ve kutuphane kataloglari dahil olmak uzere her turlu arama motorunun basarisi acisindan merkezi bir rol oynar Bu degerlendirme olcutleri bilgi davranisi calismalari kullanilabilirlik testleri isletme maliyetleri ve verimlilik analizleri gibi bircok alanda kullanilir Test koleksiyonlari ile birlikte kullanilan degerlendirme metrikleri bilgi erisim arastirmalarinin odak noktalarindan biri olmustur Bu alanda ozellikle degerlendirme olcutlerine odaklanan cesitli akademik konferanslar duzenlenmektedir Bunlarin en bilinenleri arasinda Text Retrieval Conference TREC Conference and Labs of the Evaluation Forum CLEF ve NTCIR yer alir Cevrimici OlcutlerCevrimici metrikler genellikle arama gunluklerinden search logs elde edilir Bu tur metrikler ozellikle A B testi gibi deneysel yontemlerde basariyi olcmek icin sikca kullanilir Oturum Terk Etme Orani Session Abandonment Rate Oturum terk etme orani bir arama oturumunun tiklama ile sonuclanmama oranini ifade eder Yani kullanici bir sey arar ancak cikan sonuclardan hicbirine tiklamazsa bu oturum terk edilmis sayilir Bu durum genellikle ya sonuclarin ilgisiz olduguna ya da kullanicinin aradigini bulamadigina isaret eder Tiklama Orani Click Through Rate CTR Tiklama orani belirli bir baglantiya tiklayan kullanici sayisinin toplam goruntuleyen kullanici sayisina oranidir Genellikle bir e posta kampanyasinin ya da cevrimici reklamin basarisini olcmek icin kullanilir Ayni sekilde bir arama sonucunun ne kadar ilgi cekici oldugunu da olcebilir Oturum Basari Orani Session Success Rate Oturum basari orani basarili sonucla tamamlanan kullanici oturumlarinin oranini ifade eder Basari tanimi baglama gore degisebilir Arama ozelinde bu genellikle kullanicinin sonucla ne kadar etkilesimde bulunduguna gore degerlendirilir Ornegin bir sonucun URL sini kopyalamasi ya da snippet iceriginden kopyalama yapmasi oturumun basarili oldugunu gosterebilir Bu gibi durumlarda dwell time kullanicinin bir sonucta ne kadar zaman gecirdigi onemli bir olcut olarak kullanilir Sifir Sonuc Orani Zero Result Rate ZRR Sifir sonuc orani herhangi bir arama sonucunun hic sonuc dondurmedigi bos SERP Search Engine Results Page oturumlarin oranidir Bu metrik sistemin recall geri cagirma basarisinda bir sorun olduguna ya da kullanicilarin aradigi bilgilerin indeks icinde yer almadigina isaret edebilir Bu tur durumlar sistemin kapsaminin genisletilmesi gerektigini gosterir Bu olcutler kullanici davranislarini anlamak arama motorlarini iyilestirmek ve bilgi erisim sistemlerini daha verimli hale getirmek icin vazgecilmez araclardir Cevrimdisi OlcutlerCevrimdisi metrikler genellikle belirlenmis degerlendirme oturumlari sirasinda olusturulur Bu oturumlarda uzman degerlendirme yapan kisiler arama sonuclarinin kalitesini puanlandirir Puanlama ikili relevant non relevant ilgili ilgisiz veya cok seviyeli ornegin 0 dan 5 e kadar olcekler kullanilarak yapilabilir Ancak pratikte sorgular tam olarak net olmayabilir ve farkli derecelerde alaka duzeyi olabilir Ornegin mars kelimesiyle yapilan bir aramanin anlami belirsizdir Kullanicinin Mars gezegenini mi Mars cikolatasini mi Bruno Mars i mi yoksa Roma tanrisi Mars i mi aradigini degerlendiren kisi bilemez Bu gibi durumlar bilgi erisim sistemlerinde alaka duzeyinin relevance neden kritik bir olcut oldugunu gosterir Kesinlik Precision Kesinlik precision getirilen belgeler arasinda gercekten kullanicinin bilgi ihtiyacina uygun olanlarin oranidir Matematiksel olarak su sekilde ifade edilir precision ilgili belgeler getirilen belgeler getirilen belgeler Yani arama motorunun dondurdugu sonuclar arasinda gercekten ilgili olanlarin yuzdesini olcer Kesinlik tum getirilen belgeleri dikkate alir Ayrica yalnizca en ustteki belirli sonuclari degerlendirmek icin Precision k metrigi kullanilabilir Burada dikkat edilmesi gereken bir nokta bilgi erisimi alaninda kesinlik teriminin diger bilim ve istatistik dallarindaki accuracy dogruluk ve precision hassasiyet kavramlarindan farkli bir anlam tasimasidir Not Precision terimi bilgi erisimi alaninda istatistik veya diger bilim alanlarindaki dogruluk accuracy ya da hassasiyet precision kavramlarindan farkli bir anlama sahiptir Bu farklilik goz onunde bulundurulmalidir Geri Cagirma Recall Geri cagirma recall sorguya gercekten uygun olan belgelerin ne kadarinin basarili bir sekilde geri getirildigini gosterir Matematiksel ifadesi soyledir recall ilgili belgeler getirilen belgeler ilgili belgeler Yani sistemin gercekten alakali olan belgeleri ne olcude yakalayabildigini gosterir Ikili siniflandirmada binary classification geri cagirma genellikle duyarlilik sensitivity olarak adlandirilir Bir sorgunun ilgili belgeyi dondurme olasiligi olarak da dusunulebilir Ancak geri cagirma tek basina yeterli bir olcut degildir Cunku geri cagirmayi 100 e cikarmak icin sistemin tum belgeleri sorgu sonucu olarak dondurmesi yeterlidir Bu tum ilgili belgelerin getirildigini garanti eder ancak ayni zamanda bircok ilgisiz belgeyi de icerdiginden kullanici icin faydasiz hale gelir Bu yuzden kesinlik precision ve geri cagirma recall birlikte degerlendirilmelidir Fall out Yanlis Alarm Orani Fall out tum ilgisiz belgeler arasindan sorguya ragmen yanlislikla getirilenlerin oranidir fall ou t ilgisiz belgeler getirilen belgeler ilgisiz belgeler Ne ifade eder Kullanicinin ihtiyaciyla ilgisiz olan belgelerden kaci sistem tarafindan yanlislikla getirilmis Binary classification da karsiligi Fall out 1 ozgulluk specificity ye esittir Yani ilgisiz bir belgenin yanlislikla sorguya dahil edilme olasiligidir Not Fall out u 0 yapmak kolaydir Sorguya hic belge dondurmeyerek F Score F Measure Harmonik Ortalama Precision kesinlik ve Recall geri cagirma degerlerinin agirlikli harmonik ortalamasidir En yaygin olani F1 2 precision recall precision recall F1 skoru precision ve recall a esit agirlik verir Tek basina precision ya da recall yeterli olmadiginda ikisini birlestiren bir performans olcutudur Diger varyantlar F lt sub gt b lt sub gt formulu Fb 1 b 2 precision recall b2 precision recall Burada b kullanicinin recall a ne kadar daha fazla onem verdigini ifade eder F olcusu AnlamiF lt sub gt 2 lt sub gt Recall geri cagirma 2 kat daha onemliF lt sub gt 0 5 lt sub gt Precision kesinlik 2 kat daha onemliArka plan Van Rijsbergen 1979 tarafindan gelistirilen bu olcut bir kullanicinin recall ve precision a verdigi onceligi b ile ifade ederek performansi tek sayi ile degerlendirmeyi saglar Bu metriklerin her biri bilgi erisim sistemlerinin hem teknik performansini hem de kullanici deneyimini daha iyi anlamak ve gelistirmek icin kritik oneme sahiptir Ozellikle arama sistemlerinin optimize edilmesinde bu tur cevrimdisi testler ve olcumler cevrimici analizlerle birlikte butunleyici bir rol oynar Average Precision AP Ortalama Kesinlik Tanim Average Precision sirali dokuman listelerinde her k konumu icin hesaplanan kesinligin ortalamasidir Precision recall egrisinin altinda kalan alan AUC Area Under Curve olarak da dusunulebilir Formul AveP k 1 nP k rel k Toplam ilgili dokuman sayisi P k k konumundaki precision rel k k konumundaki dokumanin ilgili 1 ya da ilgisiz 0 olma durumu Aciklama Precision degeri sadece ilgili dokumanlar icin toplanir ve ilgili dokuman sayisina bolunerek ortalama alinir Bu sayede siralama icinde ilgili dokumanlarin konumu da dikkate alinir Interpolasyonlu Average Precision Bazi durumlarda precision recall egrisindeki dalgalanmalari duzlestirmek icin precision degeri daha yuksek recall seviyelerinde gorulen maksimum precision degeriyle degistirilir pinterp r r rmaxp r Ardindan asagidaki gibi hesaplanir AveP 111r 0 0 1 1 0 pinterp r Not PASCAL VOC yarismalari 2010 yilina kadar bu yontemi kullanmistir Precision at K P k Tanim Top k dokumandaki ilgili dokumanlarin oranidir Sadece ilk k sonuc dikkate alinir Ozellikle kullanicilarin genellikle ilk birkac sonucu dikkate aldigi web aramalarinda kullanislidir Formul P k kI lk k sonuctaki ilgili dokuman sayisi Avantaj Kullanimi kolaydir sadece ilk k dokumanin etiketlenmesi yeterlidir Dezavantaj Ilgili dokumanlarin konumu goz ardi edilir ve eger k dan daha az sayida ilgili dokuman varsa mukemmel sistemler bile 1 0 a ulasamayabilir R Precision Tanim R ilgili dokuman sayisi kadar dokuman uzerinden precision olcumudur Her sorgu icin R farkli olabilir Formul R Precision Rr R Sorguya karsilik gelen toplam ilgili dokuman sayisi r Ilk R sonuc icindeki ilgili dokuman sayisi Not R Precision P R ve Recall R ile esdegerdir Genellikle MAP Mean Average Precision ile yuksek korelasyona sahiptir Mean Average Precision MAP Tanim Tum sorgular icin hesaplanan Average Precision degerlerinin ortalamasidir Formul MAP Q1q 1 QAveP q Q Toplam sorgu sayisi AveP q q numarali sorgunun average precision degeri Aciklama Birden fazla sorgunun performansini ortalama bir metrikle ifade eder Bilgi erisim sistemlerinin genel basarimini degerlendirmek icin kullanilir Discounted Cumulative Gain DCG ve nDCG Tanim Sonuc listesindeki dokumanlarin alaka derecesini ve konumunu dikkate alir Daha alt siralarda bulunan dokumanlar cezalandirilir logaritmik olarak dusurulur Formul DCGp i 1 plog2 i 1 reli rel i i nci siradaki dokumanin alaka duzeyi Normalize Edilmis DCG nDCG Farkli sorgular ya da sistemler arasi karsilastirma icin ideal siralamaya gore normalize edilir nDCGp IDCGpDCGp IDCG En iyi ideal siralamaya gore DCG Not nDCG degeri her zaman 0 0 1 0 arasinda olur 1 0 degeri siralamanin tamamen ideal oldugunu gosterir Olcut Adi AciklamaKesinlik Precision Toplam dogru tahminlerin sistemin tamaminda verdigi pozitif tahminlerin oranidir Yani arama sonuclari arasindaki dogru belgelerin oranini gosterir Geri Cagirma Recall Gercek pozitiflerin sistemin tespit ettigi pozitiflere oranidir Yani arama sonuclarinda bulunan dogru belgelerin toplam dogru belgelerle oranidir Fall out Yanlis Alarm Orani Yanlis pozitiflerin tum negatifler arasindaki oranidir Yani alakasiz belgelerin yanlis bir sekilde pozitif olarak siniflandirilma oranini gosterir F Score F Measure Harmonik Ortalama Kesinlik ve geri cagirma arasindaki dengeyi olcen bir harmonik ortalama formuludur Genellikle iki olcut arasindaki dengenin en iyi sekilde nasil saglanacagini gosterir Average Precision AP Bir sorgu icin her bir siralama basamaginda dogruluk hesaplanarak ortalamasi alinir Ozetle belirli bir sorgu icin ortalama dogruluk degerini olcer Precision at K P k Ilk k sonuctaki dogruluk oranini olcer Bu arama sisteminin kullaniciya ilk k sonucu verdiginde ne kadar dogru sonuc sundugunu gosterir R Precision Kullanici tarafindan saglanan gercek pozitiflerin sayisina kadar olan ilk k sonucta arama sisteminin dogrulugunu olcen bir metriktir Bu ozellikle siralama performansini analiz eder Mean Average Precision MAP Bir dizi sorgu icin ortalama dogrulugun hesaplanmasidir Bu her sorgu icin ortalama dogrulugun hesaplanarak tum sorgularin dogrulugunun ortalamasini alir Discounted Cumulative Gain DCG Siralama performansini olcen ve siralamanin oncelikli sonuclarini odullendiren bir metriktir Erken siralarda daha fazla agirlik verir nDCG Normalized DCG DCG nin normallestirilmis halidir Sonuclarin siralamasina gore odulleri normallestirir boylece farkli veri setlerinde karsilastirmayi mumkun kilar Bu tablo her bir olcutun neyi ifade ettigini ve hangi kriterlere gore degerlendirme yaptigina dair kisa bir ozet sunar Bu olcutler arama sistemlerinin ve oneri motorlarinin performansini farkli acilardan analiz etmek icin kullanilir Diger OlcutlerOrtalama Ters Sira Ortalama ters sira bir siralamanin dogrulugunu olcen bir yontemdir Bu olcut dogru cevabin siralamadaki konumunun tersine bakarak degerlendirme yapar Bu yontem ozellikle arama sonuclarinda siralamanin ne kadar etkili oldugunu gormek icin kullanilir bpref Bpref ilgili belgelerin ilgisiz belgelerden once siralandigi bir olcut olup toplam siralama degeri uzerinden yapilan bir hesaplama ile elde edilir Bu olcut siralama basarisini daha dogru olcmeyi amaclar cunku siralama onceligini dikkate alir ve kullanicinin daha fazla alakali belgeye erisimini artirmayi hedefler GMAP GMAP her konu icin ortalama dogrulugun geometrik ortalamasini temsil eder Bu olcut her bir sorgu icin ortalama dogrulugun birlesimini alarak daha genel bir basari olcusu olusturur Bu ozellikle cok sayida sorgu ve konu iceren sistemlerde performans degerlendirmesi icin onemlidir Marjinal Alaka ve Belge Cesitliligi Temelli Olcutler Marjinal alaka ve belge cesitliligi bilgi erisimi sistemlerinin ne kadar anlamli ve cesitli icerikler sundugunu degerlendiren olcutlerdir Bu olcutler arama sonuclarinin sadece dogru degil ayni zamanda cesitli ve kapsamli olmasini hedefler Bu tur olcutler ozellikle icerik cesitliligi gerektiren gorevlerde onemlidir Alaka ve Guvenilirlik Temelli Olcutler Gunumuzde arama sonuclarinda yaniltici iceriklerin ornegin sahte haberlerin etkisi buyuk olmustur Bu tur iceriklerin siniflandirilmasi icin gelistirilen olcutler hem bilginin dogrulugunu hem de guvenilirligini olcmeye yoneliktir Bu ozellikle guvenilir ve dogru bilgiye dayali sonuclar saglamak isteyen sistemlerde kullanilir Hit Orani Hit orani arama sonuclarinin dogrulugunu ve kullanicilarin istenen bilgiye erisme oranini gosteren onemli bir metriktir Bu oran arama sonuclarinda kullanicilarin ne kadar basariyla dogru belgelere ulastigini gosterir Gorsellestirme Bilgi erisim performansini gorsellestirme sistemlerin basarisini daha anlasilir hale getirmek icin cesitli grafikler ve diyagramlar kullanmayi icerir Bazi gorsellestirme turleri sunlardir Dogruluk ve Geri Cagirma Grafikleri Dogruluk ve geri cagirma arasindaki iliskiyi gorsellestiren grafikler sistemin ne kadar dogru sonuclar dondurdugunu ve bu sonuclarin ne kadarini kullanicinin ihtiyaclarina uygun sekilde sundugunu gosterir Ortalama Dogruluk Histogramlari Farkli konularda ortalama dogrulugun gorsellestirildigi histogramlar her bir konu basligina iliskin sistem performansini karsilastirmak icin kullanilir Alici Karakteristik Egrisi ROC Egrisi ROC egrisi bir arama sisteminin dogruluk oranini ve yanlis pozitif oranini karsilastirarak modelin genel performansini gorsellestirir Karisiklik Matrisi Karisiklik matrisi modelin dogru ve yanlis tahminlerini duzenli bir sekilde gostererek hangi siniflarin daha iyi tanimlandigini ya da karistigini anlamayi saglar Alaka Disi Olcutler Arama sistemlerinin yalnizca alaka duzeyini degil ayni zamanda diger faktorleri de olcmesi onemlidir Bunlardan biri de sorgularin zamanla nasil degistigi ve arama sisteminin kullaniminin izlenmesidir Zaman Basina Sorgu Arama sisteminde belirli bir zaman diliminde gerceklestirilen sorgu sayisini olcmek sistemin kullanim oranini takip etmek icin onemli bir metriktir Bu olcut beklenmedik sorgu artislarinin tespit edilmesi veya diger metriklerle karsilastirmak icin bir temel olusturmak icin kullanilabilir Ornegin sorgu trafiginde bir artis sorgu gecikmesindeki bir artisi aciklamak icin kullanilabilir Olcut Adi AciklamaMean Reciprocal Rank MRR Bir sorgu icin dogru cevabin sirasini tersine ceviren ve siralama basarisini olcen bir olcuttur bpref Ilgili belgelerin alakasiz belgelere gore ne kadar oncelikli siralandigini gosteren toplam siralama tabanli bir olcuttur GMAP Geometric Mean Average Precision Her bir konu icin ortalama dogrulugun geometrik ortalamasini alarak performansi olcer Marginal Relevance ve Document Diversity Marginal Relevance Marjinal Ilgililik ve belgedeki cesitlilik uzerinden olculen performans sorgulama kalitesini degerlendirmede kullanilir Relevance ve Credibility Measures Ozellikle sahte haberlerin arama sonuclarinda nasil yer aldigini analiz eden olcutlerdir Hit Rate Belirli bir arama sisteminde dogru cevabin bulunma oranini olcer Visualization Gorsellestirme Performans olcutlerinin gorsel temsilleri Precision Recall Graphs Bir eksende dogruluk precision diger eksende hatirlama recall olcumleriyle yapilan grafikler Average Precision Histograms Cesitli konular icin ortalama dogrulugun histogramlari Receiver Operating Characteristic ROC Curve Performansin gorsel temsili dogru pozitif orani TPR ile yanlis pozitif oranini FPR karsilastirir Confusion Matrix Modelin tahminlerinin dogrulugunu yanlis siniflandirmalarla birlikte gorsellestiren matris Non Relevance Measures Ilgisiz sonuclarin analiz edilmesi ornegin sorgu basina elde edilen sonuclarin alakasizlik duzeyini olcer Queries per Time Arama sistemine yapilan sorgularin belirli bir zaman dilimindeki sayisini olcer kullanim yogunlugunu izler ve sistemin kullanimini analiz eder Bu tablo cevrimdisi olcutlerin ve analiz yontemlerinin bir ozetini sunmaktadir Her bir olcut arama sistemlerinin performansini farkli acilardan degerlendirmek icin kullanilir Kaynakca Carterette Ben Voorhees Ellen M 2011 Lupu Mihai Mayer Katja Tait John Trippe Anthony J Ed Overview of Information Retrieval Evaluation Ingilizce Springer ss 69 85 doi 10 1007 978 3 642 19231 9 3 4 Haziran 2018 tarihinde kaynagindan arsivlendi erisim tarihi 17 Mart 2025 Sanderson P Clough M 15 Haziran 2013 Evaluating the performance of information retrieval systems using test collections informationr net Ingilizce 9 Ekim 2024 tarihinde kaynagindan arsivlendi Erisim tarihi 17 Mart 2025 PDF https www diva portal org smash get diva2 1503901 FULLTEXT01 pdf 28 Haziran 2024 tarihinde kaynagindan arsivlendi PDF Erisim tarihi 17 Mart 2025 Eksik ya da bos baslik yardim Harman Donna 2011 Information Retrieval Evaluation Synthesis Lectures on Information Concepts Retrieval and Services Ingilizce doi 10 1007 978 3 031 02276 0 ISSN 1947 945X Sanderson Mark 2010 Test Collection Based Evaluation of Information Retrieval Systems Foundations and Trends in Information Retrieval Ingilizce 4 4 247 375 doi 10 1561 1500000009 ISSN 1554 0669 17 Subat 2025 tarihinde kaynagindan arsivlendi Erisim tarihi 17 Mart 2025 Evaluation measures information retrieval Ingilizce 24 Subat 2025 7 Mart 2025 tarihinde kaynagindan arsivlendi erisim tarihi 17 Mart 2025 PDF https web archive org web 20110504130953 http sas uwaterloo ca stats navigation techreports 04WorkingPapers 2004 09 pdf 4 Mayis 2011 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 17 Mart 2025 Eksik ya da bos baslik yardim International ACMSIGIR Conference on Research amp Development in Information Retrieval 29th 2006 Seattle Wash 2006 SIGIR Seattle 2006 proceedings of the Twenty Ninth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval University of Washington Seattle WA USA Internet Archive New York N Y Association for Computing Machinery ISBN 978 1 59593 369 0

Yayın tarihi: Nisan 26, 2025, 19:54 pm
En çok okunan
  • Aralık 11, 2025

    Çoruh (il)

  • Aralık 12, 2025

    Çok ırklı Amerikalılar

  • Aralık 12, 2025

    Çivril Tren İstasyonu

  • Aralık 15, 2025

    Çin'in İstanbul Başkonsolosluğu

  • Aralık 06, 2025

    Çağ (anlam ayrımı)

Günlük
  • Koala

  • Avustralya

  • Avustralya

  • Yeni Güney Galler

  • Popülasyon (biyoloji)

  • Trabzon İmparatorluğu

  • Trabzon hükümdarları listesi

  • Wright Kardeşler

  • Mevlânâ Celâleddîn-i Rûmî

  • Akciğer kanseri

NiNa.Az - Stüdyo

  • Vikipedi

Bültene üye ol

Mail listemize abone olarak bizden her zaman en son haberleri alacaksınız.
Temasta ol
Bize Ulaşın
DMCA Sitemap Feeds
© 2019 nina.az - Her hakkı saklıdır.
Telif hakkı: Dadaş Mammedov
Üst