Bu maddede birçok sorun bulunmaktadır Lütfen sayfayı geliştirin veya bu sorunlar konusunda bir yorum yapın Bu madde Viki

Gizli anlamsal analiz ( LSA ), doğal dil işlemede, özellikle , bir dizi belge ve içerdikleri terimler arasındaki ilişkileri, belgeler ve terimlerle ilgili bir dizi kavram üreterek analiz eden bir tekniktir. LSA, anlamca yakın olan kelimelerin benzer metin parçalarında bulunacağını varsayar ( ). Büyük bir metin parçasından, belge başına kelime sayılarını içeren bir matris (satırlar benzersiz kelimeleri, sütunlar ise her bir belgeyi temsil eder) oluşturulur ve sütunlar arasındaki benzerlik yapısını korurken satır sayısını azaltmak için (SVD) adı verilen bir matematiksel teknik kullanılır. Daha sonra belgeler herhangi iki sütun arasındaki göre karşılaştırılır. 1'e yakın değerler çok benzer belgeleri temsil ederken 0'a yakın değerler çok farklı belgeleri temsil eder.

Gizli anlamsal yapıyı kullanan bir bilgi alma tekniği 1988'de , , , , , ve tarafından patentlendi.Bilgi almaya uygulanması bağlamında, bazen gizli anlamsal indeksleme ( LSI ) olarak adlandırılır.

Genel bakış

Belge-kelime matrisinde konu algılama sürecinin animasyonu. Her sütun bir belgeye, her satır bir kelimeye karşılık geliyor. Bir hücre, bir belgedeki bir kelimenin ağırlığını depolar (örneğin tf-idf ile), koyu hücreler yüksek ağırlıkları gösterir. LSA, benzer sözcükleri içeren belgelerin yanı sıra benzer bir belge kümesinde geçen sözcükleri de gruplandırır. Ortaya çıkan desenler gizli bileşenleri tespit etmek için kullanılır.

Oluşum matrisi

LSA, belgelerdeki terimlerin oluşumlarını tanımlayan bir belge-terim matrisi kullanabilir; bu, satırları terimlere ve sütunları belgelere karşılık gelen . Matrisin öğelerinin ağırlıklandırılmasının tipik bir örneği tf-idf'dir (terim sıklığı-ters belge sıklığı): Matrisin bir öğesinin ağırlığı, terimlerin her bir belgede göründüğü sayıyla orantılıdır; nadir terimler, göreceli önemlerini yansıtacak şekilde ağırlıklandırılır.

Bu matris, standart semantik modellerde de yaygındır, ancak matrislerin matematiksel özellikleri her zaman kullanılmadığından, mutlaka açıkça bir matris olarak ifade edilmesi gerekmez.

Rütbe düşürme

Oluşum matrisinin oluşturulmasından sonra LSA, terim-belge matrisine bulur. Bu yaklaşımların çeşitli nedenleri olabilir:

Orijinal terim-belge matrisinin hesaplama kaynakları için çok büyük olduğu varsayılır; bu durumda, yaklaşık düşük rütbeli matris bir yaklaşım (bir "en az ve gerekli kötülük") olarak yorumlanır.
Orijinal terim-belge matrisinin gürültülü olduğu varsayılır: örneğin, terimlerin anekdot niteliğindeki örnekleri elenecektir. Bu bakış açısından bakıldığında, yaklaşık matris, gürültüsüzleştirilmiş bir matris (orijinalinden daha iyi bir matris) olarak yorumlanır.
Orijinal terim-belge matrisinin "gerçek" terim-belge matrisine kıyasla aşırı varsayılmaktadır. Yani, orijinal matris yalnızca her belgede gerçekten bulunan kelimeleri listeler, oysa biz her belgeyle ilişkili tüm kelimelerle ilgileniyor olabiliriz; bu genellikle eşanlamlılık nedeniyle çok daha büyük bir kümedir.

{(araba), (kamyon), (çiçek)} → {(1.3452 * araba + 0.2828 * kamyon), (çiçek)}

Bu, eş anlamlılığı belirleme sorununu hafifletir, çünkü sıralamanın düşürülmesinin benzer anlamlara sahip terimlerle ilişkili boyutları birleştirmesi beklenir. Aynı zamanda, çok anlamlı sözcüklerin "doğru" yöne işaret eden bileşenleri, benzer bir anlamı paylaşan sözcüklerin bileşenlerine eklendiğinden, sorununu da kısmen hafifletir. Buna karşılık, diğer yönlere işaret eden bileşenler ya basitçe birbirlerini iptal etme eğilimindedir ya da en kötüsü, amaçlanan yöne karşılık gelen yönlerdeki bileşenlerden daha küçük olma eğilimindedir.

Türetme

İzin vermek $X$ elemanın bulunduğu bir matris olsun $(i,j)$ terimin oluşumunu açıklar $i$ belgede $j$ (örneğin bu, frekans olabilir). $X$ şöyle görünecek:

${\begin{matrix}&{\textbf {d}}_{j}\\&\downarrow \\{\textbf {t}}_{i}^{T}\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}\end{matrix}}$

Şimdi bu matristeki bir satır, her bir belgeye ilişkin ilişkisini veren bir terime karşılık gelen bir vektör olacaktır:

${\textbf {t}}_{i}^{T}={\begin{bmatrix}x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\end{bmatrix}}$

Benzer şekilde, bu matristeki bir sütun, her terime olan ilişkisini veren bir belgeye karşılık gelen bir vektör olacaktır:

${\textbf {d}}_{j}={\begin{bmatrix}x_{1,j}\\\vdots \\x_{i,j}\\\vdots \\x_{m,j}\\\end{bmatrix}}$

Şimdi nokta çarpımı ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ İki terim vektörü arasındaki korelasyon, belgeler kümesi üzerindeki terimler arasındaki korelasyonu verir. Matris ürünü $XX^{T}$ tüm bu nokta ürünlerini içerir. Öğe $(i,p)$ (elemana eşit olan) $(p,i)$ ) nokta çarpımını içerir ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ ( $={\textbf {t}}_{p}^{T}{\textbf {t}}_{i}$ ). Benzer şekilde matris $X^{T}X$ tüm belge vektörleri arasındaki nokta ürünlerini içerir ve terimler üzerindeki korelasyonlarını verir: ${\textbf {d}}_{j}^{T}{\textbf {d}}_{q}={\textbf {d}}_{q}^{T}{\textbf {d}}_{j}$ .

Şimdi, doğrusal cebir teorisinden, bir ayrıştırma vardır $X$ öyle ki $U$ Ve $V$ ve $\Sigma$ diyagonal bir matristir . Buna (SVD) denir:

${\begin{matrix}X=U\Sigma V^{T}\end{matrix}}$

Bize terim ve belge korelasyonlarını veren matris ürünleri daha sonra şu hale gelir:

${\begin{matrix}XX^{T}&=&(U\Sigma V^{T})(U\Sigma V^{T})^{T}=(U\Sigma V^{T})(V^{T^{T}}\Sigma ^{T}U^{T})=U\Sigma V^{T}V\Sigma ^{T}U^{T}=U\Sigma \Sigma ^{T}U^{T}\\X^{T}X&=&(U\Sigma V^{T})^{T}(U\Sigma V^{T})=(V^{T^{T}}\Sigma ^{T}U^{T})(U\Sigma V^{T})=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V\Sigma ^{T}\Sigma V^{T}\end{matrix}}$

O zamandan beri $\Sigma \Sigma ^{T}$ Ve $\Sigma ^{T}\Sigma$ köşegen olduğunu görüyoruz $U$ özvektörleri içermelidir $XX^{T}$ , sırasında $V$ özvektörleri olmalı $X^{T}X$ . Her iki ürünün de sıfır olmayan girişleri tarafından verilen aynı sıfır olmayan öz değerleri vardır. $\Sigma \Sigma ^{T}$ veya eşit olarak, sıfır olmayan girdilerle $\Sigma ^{T}\Sigma$ . Şimdi ayrıştırma şu şekilde görünüyor:

${\begin{matrix}&X&&&U&&\Sigma &&V^{T}\\&({\textbf {d}}_{j})&&&&&&&({\hat {\textbf {d}}}_{j})\\&\downarrow &&&&&&&\downarrow \\({\textbf {t}}_{i}^{T})\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}&=&({\hat {\textbf {t}}}_{i}^{T})\rightarrow &{\begin{bmatrix}{\begin{bmatrix}\,\\\,\\{\textbf {u}}_{1}\\\,\\\,\end{bmatrix}}\dots {\begin{bmatrix}\,\\\,\\{\textbf {u}}_{l}\\\,\\\,\end{bmatrix}}\end{bmatrix}}&\cdot &{\begin{bmatrix}\sigma _{1}&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\sigma _{l}\\\end{bmatrix}}&\cdot &{\begin{bmatrix}{\begin{bmatrix}&&{\textbf {v}}_{1}&&\end{bmatrix}}\\\vdots \\{\begin{bmatrix}&&{\textbf {v}}_{l}&&\end{bmatrix}}\end{bmatrix}}\end{matrix}}$

Değerler $\sigma _{1},\dots ,\sigma _{l}$ tekil değerler olarak adlandırılır ve $u_{1},\dots ,u_{l}$ Ve $v_{1},\dots ,v_{l}$ sol ve sağ tekil vektörler. Tek bir parçaya dikkat edin $U$ katkıda bulunan ${\textbf {t}}_{i}$ odur $i{\textrm {'th}}$ sıra. Bu satır vektörünün adının şu olmasına izin verin: ${\hat {\textrm {t}}}_{i}^{T}$ . Benzer şekilde, tek kısmı $V^{T}$ katkıda bulunan ${\textbf {d}}_{j}$ odur $j{\textrm {'th}}$ kolon, ${\hat {\textrm {d}}}_{j}$ . Bunlar özvektörler değildir, fakat tüm özvektörlere bağlıdırlar .

Seçtiğinizde ortaya çıkıyor ki $k$ en büyük tekil değerler ve bunlara karşılık gelen tekil vektörler $U$ Ve $V$ , rütbeyi alırsın $k$ yaklaşıklık $X$ en küçük hata ile ( ). Bu yaklaşımın çok az bir hatası vardır. Ama daha da önemlisi, artık terim ve belge vektörlerini bir "anlamsal uzay" olarak ele alabiliriz. Satır "terim" vektörü ${\hat {\textbf {t}}}_{i}^{T}$ sonra sahip oldu $k$ onu daha düşük boyutlu bir uzaya eşleyen girdiler. Bu yeni boyutların anlaşılır hiçbir kavrama ilişkinliği yoktur. Bunlar, yüksek boyutlu uzayın düşük boyutlu bir yaklaşımıdır. Benzer şekilde, "belge" vektörü ${\hat {\textbf {d}}}_{j}$ bu düşük boyutlu uzayda bir yaklaşımdır. Bu yaklaşımı şu şekilde yazıyoruz:

X_{k}=U_{k}\Sigma _{k}V_{k}^{T}

Artık şunları yapabilirsiniz:

İlgili belgelerin nasıl olduğunu görün $j$ Ve $q$ vektörleri karşılaştırarak düşük boyutlu uzaydadır $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{j}$ Ve $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{q}$ (genellikle ile).
Terimleri karşılaştırma $i$ Ve $p$ vektörleri karşılaştırarak $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{i}$ Ve $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{p}$ . Dikkat ${\hat {\textbf {t}}}$ artık bir sütun vektörüdür.
Belgeler ve terim vektör gösterimleri, kosinüs gibi benzerlik ölçütlerini kullanarak k-ortalamalar gibi geleneksel kümeleme algoritmaları kullanılarak kümelenebilir.
Bir sorgu verildiğinde, bunu mini bir belge olarak görüntüleyin ve düşük boyutlu uzaydaki belgelerinizle karşılaştırın.

İkincisini yapmak için öncelikle sorgunuzu düşük boyutlu uzaya çevirmeniz gerekir. Bu durumda belgelerinizde kullandığınız dönüşümün aynısını kullanmanız gerektiği sezgiseldir:

${\hat {\textbf {d}}}_{j}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {d}}_{j}$

Burada diyagonal matrisin tersinin olduğunu unutmayın $\Sigma _{k}$ matris içindeki sıfırdan farklı her değerin ters çevrilmesiyle bulunabilir.

Bu, bir sorgu vektörünüz varsa şu anlama gelir: $q$ , çeviriyi sen yapmalısın ${\hat {\textbf {q}}}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {q}}$ Düşük boyutlu uzaydaki belge vektörleriyle karşılaştırmadan önce. Aynısını sözde terim vektörleri için de yapabilirsiniz:

${\textbf {t}}_{i}^{T}={\hat {\textbf {t}}}_{i}^{T}\Sigma _{k}V_{k}^{T}$ t

${\hat {\textbf {t}}}_{i}^{T}={\textbf {t}}_{i}^{T}V_{k}^{-T}\Sigma _{k}^{-1}={\textbf {t}}_{i}^{T}V_{k}\Sigma _{k}^{-1}$ ${\hat {\textbf {t}}}_{i}=\Sigma _{k}^{-1}V_{k}^{T}{\textbf {t}}_{i}$

Uygulamalar Yeni düşük boyutlu uzay genellikle şu amaçlar için kullanılabilir:

Düşük boyutlu uzaydaki belgeleri karşılaştırın ( veri kümelemesi, belge sınıflandırması ).
Çevrilmiş belgelerin temel kümesini analiz ettikten sonra, diller arasında benzer belgeleri bulun ( diller arası bilgi alma ).
Terimler arasındaki ilişkileri bulun ( eş anlamlılık ve ).
Verilen bir terim sorgusunu düşük boyutlu uzaya çevir ve eşleşen belgeleri bul ( bilgi alma ).
Örneğin çoktan seçmeli sorularda MCQ cevaplama modelinde olduğu gibi, küçük terim grupları arasında anlamsal bir şekilde (yani bir bilgi gövdesi bağlamında) en iyi benzerliği bulun.
Makine öğrenimi/metin madenciliği sistemlerinin özellik alanını genişletin
Metin gövdesindeki kelime ilişkisini analiz edin

Eş anlamlılık ve çok anlamlılık doğal dil işlemedeki temel problemlerdir:

Eş anlamlılık, aynı düşünceyi farklı sözcüklerle anlatmaktır. Bu nedenle, arama motorunda yapılan bir sorgu, sorguda görünen kelimeleri içermeyen ilgili bir belgeye ulaşmayı başaramayabilir. Örneğin, "doktorlar" için yapılan bir arama, kelimeler aynı anlama gelse bile " hekimler " kelimesini içeren bir belge döndürmeyebilir.
Çok anlamlılık, aynı kelimenin birden fazla anlama gelmesi durumudur. Bu nedenle arama sonucunda, aranan kelimelerin yanlış anlamlarını içeren alakasız belgelere ulaşılabilmektedir. Örneğin, "ağaç" kelimesini arayan bir botanikçi ile bir bilgisayar bilimci muhtemelen farklı belge kümeleri isteyecektir.

Ticari uygulamalar

LSA, patentler için araştırmalarının yapılmasına yardımcı olmak için kullanılmıştır.

İnsan hafızasındaki uygulamalar

Gizli Anlamsal Analizin insan belleğinin incelenmesinde, özellikle serbest hatırlama ve bellek arama alanlarında kullanımı yaygınlaşmıştır. İki kelimenin semantik benzerliği (LSA ile ölçüldüğü gibi) ile kelimelerin rastgele ortak isimlerden oluşan çalışma listelerinin kullanıldığı serbest hatırlama görevlerinde birbiri ardına hatırlanma olasılığı arasında pozitif bir korelasyon vardır. Ayrıca bu durumlarda benzer kelimeler arasındaki yanıtlar arası sürenin, farklı kelimeler arasındaki yanıtlara göre çok daha hızlı olduğunu da kaydettiler. Bu bulgulara adı verilir.

Katılımcılar çalışılan öğeleri hatırlarken hata yaptıklarında, bu hataların daha çok istenen öğeyle anlamsal olarak daha ilişkili olan ve daha önce çalışılmış bir listede bulunan öğeler olma eğilimi gösterdiği görüldü. Bu tür önceki liste ihlalleri, artık çağrıldıkları gibi, geri çağırma için geçerli listedeki öğelerle rekabet ediyor gibi görünüyor.

(WAS) adı verilen başka bir model de bir dizi deneyden serbest ilişkilendirme verileri toplayarak hafıza çalışmalarında kullanılır ve 72.000'den fazla farklı kelime çifti için kelime ilişkisi ölçümlerini içerir.

Uygulama

genellikle büyük matris yöntemleri (örneğin, ) kullanılarak hesaplanır ancak büyük, tam rütbeli matrisin bellekte tutulmasını gerektirmeyen bir sinir ağı benzeri yaklaşım yoluyla artımlı olarak ve büyük ölçüde azaltılmış kaynaklarla da hesaplanabilir. Hızlı, artımlı, düşük bellekli, büyük matrisli bir SVD algoritması geliştirildi. Bu hızlı algoritmaların MATLAB ve Python uygulamaları mevcuttur. Gorrell ve Webb'in (2005) stokastik yaklaşımının aksine, Brand'in algoritması (2003) kesin bir çözüm sunmaktadır. Son yıllarda SVD'nin hesaplama karmaşıklığını azaltmak için ilerleme kaydedildi; örneğin, paralel özdeğer ayrıştırması gerçekleştirmek için paralel bir ARPACK algoritması kullanılarak, karşılaştırılabilir tahmin kalitesi sağlanırken SVD hesaplama maliyetinin hızlandırılması mümkün oldu.

Sınırlamalar

LSA'nın bazı dezavantajları şunlardır:

Ortaya çıkan boyutların yorumlanması zor olabilir. Örneğin,

{(araba), (kamyon), (çiçek)} ↦ {(1.3452 * araba + 0.2828 * kamyon), (çiçek)}

(1.3452 * otomobil + 0.2828 * kamyon) bileşeni "araç" olarak yorumlanabilir. Ancak, vakaların yakın olması çok olasıdır

{(araba), (şişe), (çiçek)} ↦ {(1.3452 * araba + 0.2828 * şişe ), (çiçek)}

gerçekleşecektir. Bu, matematiksel düzeyde gerekçelendirilebilen, ancak doğal dilde hemen belirgin bir anlamı olmayan sonuçlara yol açar. Yine de, (1.3452 * araba + 0.2828 * şişe) bileşeni haklı görülebilir çünkü hem şişeler hem de arabalar şeffaf ve opak parçalara sahiptir, insan yapımıdır ve yüksek olasılıkla yüzeylerinde logolar/kelimeler bulunur; dolayısıyla, birçok yönden bu iki kavram "anlamsal olarak aynıdır." Yani, söz konusu bir dil içinde, atanacak kolayca bulunabilen bir kelime olmayabilir ve açıklanabilirlik, basit kelime/sınıf/kavram atama görevi yerine bir analiz görevi haline gelir.

LSA, (yani bir kelimenin birden fazla anlamını) yalnızca kısmen yakalayabilir çünkü bir kelimenin her bir kullanımı, kelime uzayda tek bir nokta olarak temsil edildiği için aynı anlama sahipmiş gibi ele alınır. Örneğin, “Yönetim Kurulu Başkanı” ifadesini içeren bir belgede “başkan” kelimesinin geçmesi ile “başkan yapımcısı” ifadesini içeren ayrı bir belgede “başkan” kelimesinin geçmesi aynı kabul edilir. Bu davranış, vektör gösteriminin, gövdedeki tüm kelimelerin farklı anlamlarının ortalaması olmasıyla sonuçlanıyor ve bu da karşılaştırmayı zorlaştırabiliyor. Ancak, sözcüklerin bir metin boyunca sahip olması (yani tüm anlamların eşit derecede olası olmaması) nedeniyle etki genellikle azalır.
Bir metnin sıralanmamış bir kelime koleksiyonu olarak gösterildiği kelime torbası modelinin (BOW) sınırlamaları. Kelime torbası modeli (BOW) sınırlamalarından bazılarını ele almak için, terimler arasında doğrudan ve dolaylı ilişkilerin yanı sıra bulmak için çoklu gram sözlüğü kullanılabilir.
LSA'nın olasılıksal modeli gözlemlenen verilerle uyuşmuyor: LSA, kelimelerin ve belgelerin ortak bir Gauss modeli oluşturduğunu varsayar ( ergodik hipotez ), oysa bir Poisson dağılımı gözlemlenmiştir. Bu nedenle, standart LSA'dan daha iyi sonuçlar verdiği bildirilen, çok terimli bir modele dayanan daha yeni bir alternatiftir.

Alternatif yöntemler

Anlamsal karma

Anlamsal karma işleminde belgeler, anlamsal olarak benzer belgelerin yakın adreslerde yer alması için bir sinir ağı aracılığıyla bellek adreslerine eşlenir. Derin sinir ağı esas olarak büyük bir belge kümesinden elde edilen kelime sayısı vektörlerinin oluşturur. Sorgu belgesine benzeyen belgeler, sorgu belgesinin adresinden yalnızca birkaç bit farklı olan tüm adreslere erişilerek bulunabilir. Karma kodlamanın verimliliğini yaklaşık eşleşmeye genişletmenin bu yolu, şu anda en hızlı yöntem olan çok daha hızlıdır. ^{[ ]}

Gizli anlamsal dizinleme

Gizli anlamsal dizinleme ( LSI ), yapılandırılmamış bir metin koleksiyonunda yer alan terimler ve kavramlar arasındaki ilişkilerdeki kalıpları belirlemek için (SVD) adı verilen bir matematiksel teknik kullanan bir dizinleme ve alma yöntemidir. LSI, aynı bağlamlarda kullanılan sözcüklerin benzer anlamlara sahip olma eğiliminde olduğu ilkesine dayanır. LSI'nin temel bir özelliği, benzer bağlamlarda geçen terimler arasında ilişkiler kurarak bir kavramsal içeriğini çıkarma yeteneğidir.

LSI aynı zamanda, tarafından 1970'lerin başında geliştirilen çok değişkenli bir istatistiksel teknik olan , belgelerdeki kelime sayımlarından oluşturulan bir uygulanmasıdır.

Bir metin koleksiyonunda latent olan semantically ilişkili terimleri ilişkilendirme yeteneği nedeniyle " latent semantic indeksleme" olarak adlandırılan bu yöntem, ilk olarak 1980'lerin sonlarında metinlere uygulandı. Gizli anlam analizi (LSA) olarak da adlandırılan bu yöntem, bir metindeki kelimelerin kullanımında altta yatan gizli anlamsal yapıyı ortaya çıkarır ve bunun, kullanıcı sorgularına yanıt olarak metnin anlamını çıkarmak için nasıl kullanılabileceğini, yaygın olarak kavram aramaları olarak adlandırılır. LSI'dan geçmiş bir belge kümesine yönelik sorgular veya kavram aramaları, arama ölçütleriyle belirli bir kelime veya kelimeleri paylaşmasa bile, arama ölçütleriyle anlam bakımından kavramsal olarak benzer sonuçlar döndürecektir.

LSI'nin faydaları

LSI ve vektör uzayı modellerinin en sorunlu kısıtlamalarından biri olan geri çağırmayı artırarak eşanlamlılığın üstesinden gelmeye yardımcı olur. Eş anlamlılık, çoğu zaman belge yazarları ile bilgi arama sistemlerinin kullanıcıları tarafından kullanılan kelime dağarcığındaki uyumsuzlukların nedenidir. Sonuç olarak, Boole veya anahtar sözcük sorguları genellikle alakasız sonuçlar döndürür ve alakalı bilgileri kaçırır.

LSI aynı zamanda otomatik belge kategorizasyonu gerçekleştirmek için de kullanılır. Aslında, birçok deney LSI ile insanların metni işleme ve kategorize etme biçimleri arasında bir dizi korelasyon olduğunu göstermiştir. Belge kategorizasyonu, belgelerin kategorilerin kavramsal içeriğine benzerliklerine göre bir veya daha fazla önceden tanımlanmış kategoriye atanmasıdır. LSI, her kategori için kavramsal temeli oluşturmak amacıyla örnek belgeler kullanır. Kategorizasyon işlemi sırasında, kategorilendirilen dokümanlarda yer alan kavramlar, örnek öğelerde yer alan kavramlarla karşılaştırılır ve içerdikleri kavramlar ile örnek dokümanlarda yer alan kavramlar arasındaki benzerliklere göre dokümanlara bir veya birden fazla kategori atanır.

LSI kullanılarak belgelerin kavramsal içeriğine dayalı dinamik kümeleme de gerçekleştirilebilir. Kümeleme, her kümenin kavramsal temelini oluşturmak için örnek belgeler kullanılmadan, belgeleri kavramsal benzerliklerine göre gruplandırmanın bir yoludur. Bu, yapılandırılmamış metinlerden oluşan bilinmeyen bir koleksiyonla uğraşırken çok faydalıdır.

LSI, tamamen matematiksel bir yaklaşım kullandığı için dilden bağımsızdır. Bu, LSI'ın sözlük ve eş anlamlılar sözlüğü gibi yardımcı yapıların kullanımına ihtiyaç duymadan herhangi bir dilde yazılmış bilginin anlamsal içeriğini ortaya çıkarmasını sağlar. LSI aynı zamanda diller arası ve örnek tabanlı kategorizasyon da gerçekleştirebilir. Örneğin, sorgular tek bir dilde, örneğin İngilizce'de yapılabilir ve tamamen farklı bir dilden veya birden fazla dilden oluşsa bile kavramsal olarak benzer sonuçlar döndürülür.^[]^{[ ]}

LSI yalnızca kelimelerle çalışmakla sınırlı değildir. Ayrıca, keyfi karakter dizilerini de işleyebilir. Metin olarak ifade edilebilen herhangi bir nesne LSI vektör uzayında temsil edilebilir. Örneğin, MEDLINE özetleriyle yapılan testler, LSI'nin MEDLINE atıflarının başlıklarında ve özetlerinde yer alan biyolojik bilgilerin kavramsal modellemesine dayalı olarak genleri etkili bir şekilde sınıflandırabildiğini göstermiştir.

LSI, yeni ve değişen terminolojiye otomatik olarak uyum sağlar ve gürültüye (yani yanlış yazılmış kelimeler, tipografik hatalar, okunamayan karakterler, vb.) karşı çok toleranslı olduğu gösterilmiştir. Bu, özellikle Optik Karakter Tanıma (OCR) ve konuşmadan metne dönüştürme yoluyla türetilen metinleri kullanan uygulamalar için önemlidir. LSI aynı zamanda seyrek, belirsiz ve çelişkili verilerle de etkili bir şekilde başa çıkar.

LSI'nin etkili olabilmesi için metnin cümle biçiminde olması gerekmez. Listeler, serbest biçimli notlar, e-posta, web tabanlı içerik vb. ile çalışabilir. Bir metin koleksiyonu birden fazla terim içerdiği sürece, LSI metinde yer alan önemli terimler ve kavramlar arasındaki ilişkilerdeki kalıpları belirlemek için kullanılabilir.

LSI, bir dizi kavramsal eşleştirme sorununa yararlı bir çözüm olduğunu kanıtladı. Bu tekniğin, nedensel, hedef odaklı ve taksonomik bilgiler de dahil olmak üzere temel ilişki bilgilerini yakaladığı gösterilmiştir.

LSI zaman çizelgesi

1960'ların ortası – Faktör analizi tekniği ilk kez tanımlandı ve test edildi (H. Borko ve M. Bernick)
1988 – LSI tekniği hakkında öncü makale yayınlandı
1989 – Orijinal patent verildi
1992 – Makaleleri gözden geçirenlere atamak için LSI'nin ilk kullanımı
1994 – LSI’nin diller arası uygulanması için patent verildi (Landauer ve ark.)
1995 – LSI'nin denemeleri notlandırmak için ilk kullanımı (Foltz ve diğerleri, Landauer ve diğerleri)
1999 – Yapılandırılmamış metinlerin ( ) analizi için istihbarat topluluğuna yönelik LSI teknolojisinin ilk uygulaması.
2002 – İstihbarat tabanlı devlet kurumlarına (SAIC) LSI tabanlı ürün teklifi

LSI'nin Matematiği

LSI, bir metin koleksiyonundaki kavramsal ilişkileri öğrenmek için yaygın doğrusal cebir tekniklerini kullanır. Genel olarak süreç, ağırlıklı bir terim-belge matrisi oluşturmayı, matris üzerinde yapmayı ve matrisi kullanarak metinde yer alan kavramları belirlemeyi içerir.

LSI, bir terim-belge matrisi oluşturarak başlar, $A$ , olayların meydana gelişini tespit etmek için $m$ bir koleksiyon içindeki benzersiz terimler $n$ belgeler. Bir terim-belge matrisinde, her terim bir satırla ve her belge bir sütunla temsil edilir; her matris hücresi, $a_{ij}$ , başlangıçta ilişkili terimin belirtilen belgede göründüğü zaman sayısını temsil eder, $\mathrm {tf_{ij}}$ . Bu matris genellikle çok büyük ve çok seyrektir.

Bir terim-belge matrisi oluşturulduktan sonra, verileri koşullandırmak için ona yerel ve küresel ağırlıklandırma fonksiyonları uygulanabilir. Ağırlıklandırma fonksiyonları her hücreyi dönüştürür, $a_{ij}$ ile ilgili $A$ , yerel bir terim ağırlığının ürünü olmak üzere, $l_{ij}$ , bir terimin bir belgedeki göreceli sıklığını ve genel bir ağırlığı tanımlayan, $g_{i}$ Bu terim, tüm belge koleksiyonunda terimin göreceli sıklığını açıklar.

Bazı yaygın yerel ağırlıklandırma fonksiyonları aşağıdaki tabloda tanımlanmıştır.

İkili		$l_{ij}=1$ eğer terim belgede mevcutsa, yoksa $0$
TerimFrekans		$l_{ij}=\mathrm {tf} _{ij}$ , terimin ortaya çıkış sayısı $i$ belgede $j$
Kayıt		$l_{ij}=\log(\mathrm {tf} _{ij}+1)$
Augnorm		$l_{ij}={\frac {{\Big (}{\frac {\mathrm {tf} _{ij}}{\max _{i}(\mathrm {tf} _{ij})}}{\Big )}+1}{2}}$

Aşağıdaki tabloda bazı yaygın küresel ağırlıklandırma fonksiyonları tanımlanmıştır.

İkili		$g_{i}=1$
Normal		$g_{i}={\frac {1}{\sqrt {\sum _{j}\mathrm {tf} _{ij}^{2}}}}$
GfIdf		$g_{i}=\mathrm {gf} _{i}/\mathrm {df} _{i}$ , Neresi $\mathrm {gf} _{i}$ terimin toplam sayısıdır $i$ tüm koleksiyonda bulunur ve $\mathrm {df} _{i}$ terimdeki belge sayısıdır $i$ meydana gelmek.
		$g_{i}=\log _{2}{\frac {n}{1+\mathrm {df} _{i}}}$
Entropi		$g_{i}=1+\sum _{j}{\frac {p_{ij}\log p_{ij}}{\log n}}$ , Neresi $p_{ij}={\frac {\mathrm {tf} _{ij}}{\mathrm {gf} _{i}}}$

LSI ile yapılan deneysel çalışmalar, Log ve Entropi ağırlıklandırma fonksiyonlarının pratikte birçok veri kümesiyle iyi çalıştığını bildirmektedir. Başka bir deyişle, her giriş $a_{ij}$ ile ilgili $A$ şu şekilde hesaplanır:

$g_{i}=1+\sum _{j}{\frac {p_{ij}\log p_{ij}}{\log n}}$

$a_{ij}=g_{i}\ \log(\mathrm {tf} _{ij}+1)$

Sıralama düşürülmüş tekil değer ayrıştırması

Metinde yer alan terimler ve kavramlar arasındaki ilişkilerdeki örüntüleri belirlemek için matris üzerinde rütbesi düşürülmüş yapılır. SVD, LSI'nin temelini oluşturur. Tek terim-frekans matrisini yaklaştırarak terim ve belge vektör uzaylarını hesaplar, $A$ , üç başka matrise—bir m by r terim-kavram vektör matrisi $T$ , r'ye r tekil değerler matrisi $S$ ve n by r kavram-belge vektör matrisi, $D$ Aşağıdaki ilişkileri sağlayan:

$A\approx TSD^{T}$

$T^{T}T=I_{r}\quad D^{T}D=I_{r}$

$S_{1,1}\geq S_{2,2}\geq \ldots \geq S_{r,r}>0\quad S_{i,j}=0\;{\text{where}}\;i\neq j$

Formülde, A, bir metin koleksiyonundaki terim frekanslarının m x n ağırlıklı matrisidir; burada m benzersiz terim sayısı ve n belge sayısıdır. T, r'nin A'nın rütbesi olduğu ve benzersiz boyutlarının bir ölçüsü olan terim vektörlerinin m x r matrisinin hesaplanmasıdır. S, azalan tekil değerlerden oluşan r x r boyutlu bir köşegen matrisidir ve D, belge vektörlerinden oluşan n x r boyutlu bir matristir.

Daha sonra SVD, yalnızca en büyük k « tutularak sıralamayı azaltmak için k tipik olarak 100 ila 300 boyutlarında olan tekil değer matrisi S'deki r köşegen girişi. Bu, terim ve belge vektör matrisi boyutlarını sırasıyla m x k ve n x k'ye etkili bir şekilde azaltır. SVD işlemi, bu indirgemeyle birlikte, A'nın orijinal uzayındaki gürültüyü ve diğer istenmeyen eserleri azaltırken metindeki en önemli anlamsal bilgiyi koruma etkisine sahiptir. Bu indirgenmiş matris kümesi genellikle şu şekilde değiştirilmiş bir formülle gösterilir:

A ≈ A _k = T _k S _k D _k^T

Verimli LSI algoritmaları tam bir SVD hesaplayıp sonra onu kesmek yerine sadece ilk k tekil değeri ve terim ve belge vektörlerini hesaplar.

Bu rütbe indirgemesinin esasen A matrisi üzerinde Temel Bileşen Analizi (PCA) yapmakla aynı olduğunu, ancak PCA'nın ortalamaları çıkardığını unutmayın. PCA, A matrisinin seyrekliğini kaybeder, bu da onu büyük sözlükler için uygulanamaz hale getirebilir.

LSI vektör uzaylarını sorgulama ve genişletme

Hesaplanan T _k ve D _k matrisleri, belge koleksiyonundan türetilen kavramsal bilgileri içeren, hesaplanan tekil değerler S _k ile terim ve belge vektör uzaylarını tanımlar. Bu uzaylardaki terimlerin veya belgelerin benzerliği, bunların bu uzaylarda birbirlerine ne kadar yakın olduklarının bir faktörüdür ve genellikle karşılık gelen vektörler arasındaki açının bir fonksiyonu olarak hesaplanır.

Mevcut bir LSI dizininin belge alanında sorguların ve yeni belgelerin metinlerini temsil eden vektörleri bulmak için aynı adımlar kullanılır. A = TSD ^T denkleminin eşdeğer D = A ^T TS ⁻¹ denklemine basit bir dönüşümüyle, A'da yeni bir sütun hesaplanıp ardından yeni sütun TS ⁻¹ ile çarpılarak bir sorgu veya yeni bir belge için yeni bir vektör d oluşturulabilir. A'daki yeni sütun, başlangıçta türetilen genel terim ağırlıkları kullanılarak hesaplanır ve aynı yerel ağırlıklandırma işlevi sorgudaki veya yeni belgedeki terimlere uygulanır.

Bu şekilde vektör hesaplamanın bir dezavantajı, yeni aranabilir belgeler eklerken, orijinal endeks için SVD aşamasında bilinmeyen terimlerin göz ardı edilmesidir. Bu terimlerin, orijinal metin koleksiyonundan türetilen küresel ağırlıklar ve öğrenilen korelasyonlar üzerinde hiçbir etkisi olmayacaktır. Ancak yeni metin için hesaplanan vektörler, diğer tüm belge vektörleriyle benzerlik karşılaştırmaları için hâlâ çok önemlidir.

Bu şekilde bir LSI indeksi için belge vektör uzaylarının yeni belgelerle genişletilmesi işlemine katlama denir. Katlama işlemi yeni metnin yeni anlamsal içeriğini hesaba katmasa da, bu şekilde önemli sayıda belge eklemek, içerdikleri terimler ve kavramlar eklendikleri LSI dizininde iyi bir şekilde temsil edildiği sürece sorgular için yine de iyi sonuçlar sağlayacaktır. Yeni bir belge kümesinin terimleri ve kavramlarının bir LSI dizinine dahil edilmesi gerektiğinde, terim-belge matrisi ve SVD yeniden hesaplanmalı veya artımlı bir güncelleme yöntemine (örneğin de açıklanan yönteme) ihtiyaç duyulur.

LSI'nin ek kullanımları

Modern bilgi arama sistemleri için metinle anlamsal bir temelde çalışabilme yeteneğinin önemli olduğu genel olarak kabul edilmektedir. Sonuç olarak, ölçeklenebilirlik ve performanstaki önceki zorlukların üstesinden gelinmesiyle birlikte LSI kullanımı son yıllarda önemli ölçüde genişledi.

LSI, çeşitli bilgi alma ve metin işleme uygulamalarında kullanılıyor, ancak birincil uygulaması kavram arama ve otomatik belge kategorizasyonu olmuştur. LSI'nin kullanıldığı diğer bazı yollar aşağıda listelenmiştir:

Bilgi keşfi ( , Hükümet/İstihbarat topluluğu, Yayıncılık)
Otomatik belge sınıflandırması (eKeşif, Hükümet/İstihbarat topluluğu, Yayıncılık)
Metin özetleme (eKeşif, Yayıncılık)
İlişki keşfi (Hükümet, İstihbarat topluluğu, Sosyal Ağlar)
Bireylerin ve kuruluşların bağlantı çizelgelerinin otomatik olarak oluşturulması (Hükümet, İstihbarat topluluğu)
Teknik makalelerin ve hibelerin gözden geçirenlerle eşleştirilmesi (Hükümet)
Çevrimiçi müşteri desteği (Müşteri Yönetimi)
Belge yazarlığının belirlenmesi (Eğitim)
Görüntülerin otomatik anahtar kelime açıklaması
Yazılım kaynak kodunun anlaşılması (Yazılım Mühendisliği)
Spam filtreleme (Sistem Yönetimi)
Bilgi görselleştirme
(Eğitim)
Hisse senedi getirisi tahmini
Rüya İçeriği Analizi (Psikoloji)

LSI, işletmelerin dava süreçlerine hazırlanmasına yardımcı olmak amacıyla elektronik belge keşfi (eKeşif) amacıyla giderek daha fazla kullanılıyor. eKeşifte, büyük yapılandırılmamış metin koleksiyonlarını kavramsal bir temele göre kümeleme, kategorilere ayırma ve arama yeteneği esastır. LSI kullanılarak yapılan kavram tabanlı arama, önde gelen sağlayıcılar tarafından 2003 yılı gibi erken bir tarihte eKeşif sürecine uygulanmıştır.

LSI'ye Yönelik Zorluklar

LSI'a yönelik ilk zorluklar ölçeklenebilirlik ve performansa odaklanmıştı. LSI, diğer bilgi alma tekniklerine kıyasla nispeten yüksek hesaplama performansı ve bellek gerektirir. Ancak modern yüksek hızlı işlemcilerin kullanılmaya başlanması ve ucuz belleklerin bulunmasıyla bu hususlar büyük ölçüde ortadan kalktı. Bazı LSI uygulamalarında, matris ve SVD hesaplamaları yoluyla tamamen işlenmiş 30 milyondan fazla belgeyi içeren gerçek dünya uygulamaları yaygındır. LSI'nin tamamen ölçeklenebilir (sınırsız sayıda belge, çevrimiçi eğitim) bir uygulaması, açık kaynaklı yazılım paketinde yer almaktadır.

LSI'daki bir diğer zorluk ise SVD'yi gerçekleştirmek için kullanılacak optimum boyut sayısının belirlenmesindeki iddia edilen zorluktur. Genel bir kural olarak, daha az boyut, bir metin koleksiyonunda yer alan kavramların daha geniş karşılaştırmalarına olanak tanırken, daha fazla boyut, kavramların daha spesifik (veya daha alakalı) karşılaştırmalarına olanak tanır. Kullanılabilecek gerçek boyut sayısı koleksiyondaki belge sayısıyla sınırlıdır. Araştırmalar, orta büyüklükteki belge koleksiyonları (yüz binlerce belge) için genellikle yaklaşık 300 boyutun ve daha büyük belge koleksiyonları (milyonlarca belge) için belki de 400 boyutun en iyi sonuçları sağlayacağını göstermiştir. Ancak son araştırmalar, belge koleksiyonunun boyutuna ve doğasına bağlı olarak 50-1000 boyutun uygun olduğunu göstermektedir. LSI için, PCA veya benzer şekilde, korunan varyans oranını kontrol ederek optimum boyutluluğu belirlemek uygun değildir. Eş anlamlılık testi veya eksik kelimelerin tahmini, doğru boyutluluğu bulmanın iki olası yöntemidir. LSI konuları denetimli öğrenme yöntemlerinde özellik olarak kullanıldığında, ideal boyutluluğu bulmak için tahmin hatası ölçümlerinden yararlanılabilir.

Ayrıca bakınız

Referanslar

↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.
↑ "US Patent 4,839,853". Archived from the original on 2017-12-02. (now expired)
↑ "The Latent Semantic Indexing home page".
↑ "image". topicmodels.west.uni-koblenz.de. Archived from the original on 17 March 2023.
↑ Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ISBN 978-1-4471-2226-5 ^{[page needed]}
↑ Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. 41 (4): 1201–1209. arXiv:0811.0146. doi:10.3758/BRM.41.4.1201. PMID 19897829. S2CID 480826.
1 2 Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001. hdl:11336/60065.
1 2 Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
↑ Gerry J. Elman (October 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896.
↑ Marc W. Howard; Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). APA PsycNet Direct.
↑ Franklin M. Zaromb; et al. (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005.
↑ Nelson, Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". Retrieved May 8, 2011.
↑ Geneviève Gorrell; Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. Archived from the original (PDF) on 2008-12-21.
1 2 Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition". Linear Algebra and Its Applications. 415: 20–30. doi:10.1016/j.laa.2005.07.021.
↑ "MATLAB". Archived from the original on 2014-02-28.
↑ Python
↑ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). "A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK". Proceedings of 2011 International Conference on Computer Science and Network Technology. pp. 739–741. doi:10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID 15281129.
1 2 Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.108.8490. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
↑ Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 November 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. PMC 4252998. PMID 25428570.
↑ Thomas Hofmann (1999). "Probabilistic Latent Semantic Analysis". Uncertainty in Artificial Intelligence. arXiv:1301.6705.
↑ Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.
1 2 3 Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.
↑ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
↑ Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "The vocabulary problem in human-system communication". Communications of the ACM. 30 (11): 964–971. CiteSeerX 10.1.1.118.4768. doi:10.1145/32206.32212. S2CID 3002280.
↑ Landauer, T., et al., Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report, M. I. Jordan, M. J. Kearns & S. A. Solla (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.
↑ Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. pp. 148. CiteSeerX 10.1.1.80.8909. doi:10.1145/288627.288651. ISBN 978-1581130614. S2CID 617436.
↑ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "Gene clustering by Latent Semantic Indexing of MEDLINE abstracts". Bioinformatics. 21 (1): 104–115. doi:10.1093/bioinformatics/bth464. PMID 15308538.
↑ Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". Intelligence and Security Informatics. Lecture Notes in Computer Science. Vol. 3495. p. 602. doi:10.1007/11427995_68. ISBN 978-3-540-25999-2.
↑ Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.
↑ Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling^{[dead link‍]}, Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.
↑ Graesser, A.; Karnavat, A. (2000). "Latent Semantic Analysis Captures Causal, Goal-oriented, and Taxonomic Structures". Proceedings of CogSci 2000: 184–189. CiteSeerX 10.1.1.23.5444.
↑ Dumais, S.; Nielsen, J. (1992). "Automating the assignment of submitted manuscripts to reviewers". Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '92. pp. 233–244. CiteSeerX 10.1.1.16.9793. doi:10.1145/133160.133205. ISBN 978-0897915236. S2CID 15038631.
↑ Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).
↑ Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.
↑ Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval, December 1994, SIAM Review 37:4 (1995), pp. 573–595.
↑ Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.
↑ Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.
↑ Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.
↑ Gong, Y., and Liu, X., Creating Generic Text Summaries, Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.
↑ Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.
↑ Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". Intelligence and Security Informatics. Lecture Notes in Computer Science. Vol. 3975. pp. 674–675. doi:10.1007/11760146_84. ISBN 978-3-540-34478-0.
↑ Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant, Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.
↑ Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.
↑ Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.
↑ Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models, Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.
↑ Maletic, J.; Marcus, A. (November 13–15, 2000). "Using latent semantic analysis to identify similarities in source code to support program understanding". Proceedings 12th IEEE Internationals Conference on Tools with Artificial Intelligence. ICTAI 2000. pp. 46–53. CiteSeerX 10.1.1.36.6652. doi:10.1109/TAI.2000.889845. ISBN 978-0-7695-0909-9. S2CID 10354564.
↑ Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
↑ Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization, Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
↑ Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
↑ Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery, Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.
↑ There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.
↑ Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.
↑ Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". Advances in Information Retrieval. Lecture Notes in Computer Science. Vol. 6611. pp. 289–300. doi:10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
↑ Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications, Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.
↑ Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.
↑ Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284

^ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188-230. doi:10.1002/aris.1440380105.
^ "US Patent 4,839,853". 2 Aralık 2017 tarihinde kaynağından arşivlendi. (now expired)
^ "The Latent Semantic Indexing home page". 3 Aralık 1998 tarihinde kaynağından arşivlendi.
^ "image". topicmodels.west.uni-koblenz.de. 17 Mart 2023 tarihinde kaynağından arşivlendi.
^ Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ^[]
^ Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. 41 (4): 1201-1209. arXiv:0811.0146 $2. doi:10.3758/BRM.41.4.1201. (PMID) 19897829. 14 Mayıs 2012 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: free. Tarih değerini gözden geçirin: |erişimtarihi= ()
^ ^a ^b Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877-7503. doi:10.1016/j.jocs.2017.01.001.
^ ^a ^b Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178-187. arXiv:1610.01520 $2. doi:10.1016/j.concog.2017.09.004. (PMID) 28943127.
^ Gerry J. Elman (October 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. 26 (5): 435-436. doi:10.1089/blr.2007.9896.
^ Marc W. Howard; Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). APA PsycNet Direct.
^ Franklin M. Zaromb; ve diğerleri. (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005. 16 Mart 2023 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 21 Nisan 2025.
^ Nelson, Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". 1 Eylül 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 8 Mayıs 2011.
^ Geneviève Gorrell; Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. 21 Aralık 2008 tarihinde kaynağından (PDF) arşivlendi.
^ ^a ^b Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition". Linear Algebra and Its Applications. 415: 20-30. doi:10.1016/j.laa.2005.07.021. Erişim tarihi: free. Tarih değerini gözden geçirin: |erişimtarihi= ()
^ "MATLAB". 28 Şubat 2014 tarihinde kaynağından arşivlendi.
^ "Python". 21 Nisan 2025 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2025.
^ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). "A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK". Proceedings of 2011 International Conference on Computer Science and Network Technology. ss. 739-741. doi:10.1109/ICCSNT.2011.6182070. ISBN .
^ ^a ^b Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. 41 (6): 391-407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
^ Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 Kasım 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. (PMC) 4252998 $2. (PMID) 25428570.
^ Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.
^ ^a ^b ^c Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.
^ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
^ Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "The vocabulary problem in human-system communication". Communications of the ACM. 30 (11): 964-971. doi:10.1145/32206.32212.
^ Landauer, T., et al., Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report 25 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi., M. I. Jordan, M. J. Kearns & (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.
^ Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. ss. 148. doi:10.1145/288627.288651. ISBN .
^ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "Gene clustering by Latent Semantic Indexing of MEDLINE abstracts". Bioinformatics. 21 (1): 104-115. doi:10.1093/bioinformatics/bth464. (PMID) 15308538.
^ Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". Intelligence and Security Informatics. Lecture Notes in Computer Science. 3495. s. 602. doi:10.1007/11427995_68. ISBN .
^ Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.
^ Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling^[], Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.
^ Graesser, A.; Karnavat, A. (2000). "Latent Semantic Analysis Captures Causal, Goal-oriented, and Taxonomic Structures". Proceedings of CogSci 2000: 184-189.
^ Dumais, S.; Nielsen, J. (1992). "Automating the assignment of submitted manuscripts to reviewers". Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '92. ss. 233-244. doi:10.1145/133160.133205. ISBN .
^ Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).
^ Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.
^ Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval 26 Nisan 2025 tarihinde Wayback Machine sitesinde arşivlendi., December 1994, SIAM Review 37:4 (1995), pp. 573–595.
^ Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.
^ Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.
^ Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.
^ Gong, Y., and Liu, X., Creating Generic Text Summaries 15 Nisan 2024 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.
^ Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.
^ Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". Intelligence and Security Informatics. Lecture Notes in Computer Science. 3975. ss. 674-675. doi:10.1007/11760146_84. ISBN .
^ Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant 8 Ağustos 2019 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.
^ Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.
^ Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.
^ Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models 17 Ağustos 2017 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.
^ Maletic, J.; Marcus, A. (November 13–15, 2000). "Using latent semantic analysis to identify similarities in source code to support program understanding". Proceedings 12th IEEE Internationals Conference on Tools with Artificial Intelligence. ICTAI 2000. ss. 46-53. doi:10.1109/TAI.2000.889845. ISBN .
^ Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
^ Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization 21 Ocak 2022 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
^ Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
^ Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery 10 Şubat 2023 tarihinde Wayback Machine sitesinde arşivlendi., Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.
^ There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.
^ Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.
^ Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". Advances in Information Retrieval. Lecture Notes in Computer Science. 6611. ss. 289-300. doi:10.1007/978-3-642-20161-5_29. ISBN .
^ Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications 2 Ocak 2018 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.
^ Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.
^ Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284

Daha fazla okuma

Landauer, Thomas; Foltz, Peter W.; Laham, Darrell (1998). "Introduction to Latent Semantic Analysis" (PDF). Discourse Processes. 25 (2–3): 259-284. doi:10.1080/01638539809545028.
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science. 41 (6): 391-407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. 17 Temmuz 2012 tarihinde kaynağından (PDF) arşivlendi. Original article where the model was first exposed.
Berry, Michael; Dumais, Susan T.; O'Brien, Gavin W. (1995). "Using Linear Algebra for Intelligent Information Retrieval". 23 Şubat 2008 tarihinde kaynağından arşivlendi. (PDF) Archived 2018-11-23 at the Wayback Machine. Illustration of the application of LSA to document retrieval.
Chicco, D; Masseroli, M (2015). "Software suite for gene and protein annotation prediction and similarity search". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 12 (4): 837-843. doi:10.1109/TCBB.2014.2382127. (PMID) 26357324.
"Latent Semantic Analysis". InfoVis. 18 Şubat 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Temmuz 2005.
Fridolin Wild (23 Kasım 2005). "An Open Source LSA Package for R". CRAN. 10 Eylül 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Kasım 2006.
, . "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge". 26 Ocak 2025 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Temmuz 2007.

Dış bağlantılar

LSA ile ilgili makaleler

Latent Semantic Analysis, LSA'nın yaratıcılarından Tom Landauer'in LSA hakkında yazdığı bir scholarpedia makalesidir.

Konuşmalar ve gösteriler

LSA Genel Bakış, Prof. Thomas Hofmann'ın konuşması Archived LSA'yı, Bilgi Alma'daki uygulamalarını ve bağlantılarını açıklayan.
Windows için C# dilinde tam LSA örnek kodu . Demo kodu, metin dosyalarının numaralandırılması, durdurma sözcüklerinin filtrelenmesi, köklendirme, belge-terim matrisi oluşturulması ve SVD'yi içermektedir.

Uygulamalar

Bilgi Alma, Doğal Dil İşleme (NLP), Bilişsel Bilimler ve Hesaplamalı Dilbilim alanlarındaki alanlar arası uygulamaları nedeniyle LSA, pek çok farklı türde uygulamayı desteklemek için uygulanmıştır.

Sense Clusters, LSA'nın Bilgi Alma odaklı bir Perl uygulamasıdır
S-Space Paketi, LSA'nın Hesaplamalı Dilbilim ve Bilişsel Bilim odaklı Java uygulamasıdır
Semantic Vectors, Lucene terim-belge matrislerine Rastgele Projeksiyon, LSA ve Yansıtıcı Rastgele İndeksleme uygular
Infomap Projesi, LSA'nın NLP odaklı bir C uygulamasıdır (semanticvectors projesi tarafından değiştirilmiştir)
Metinden Matris Oluşturucu adresinde Archived, LSA desteğiyle metin koleksiyonlarından terim-belge matrisleri oluşturmak için bir MATLAB Araç Kutusu
, RAM'den büyük matrisler için LSA'nın Python uygulamasını içerir.

[1] Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188-230. doi:10.1002/aris.1440380105.

[2] "US Patent 4,839,853". 2 Aralık 2017 tarihinde kaynağından arşivlendi. (now expired)

[3] "The Latent Semantic Indexing home page". 3 Aralık 1998 tarihinde kaynağından arşivlendi.

[4] "image". topicmodels.west.uni-koblenz.de. 17 Mart 2023 tarihinde kaynağından arşivlendi.

[5] Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ^[]

[Alain2009-6] Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. 41 (4): 1201-1209. arXiv:0811.0146 $2. doi:10.3758/BRM.41.4.1201. (PMID) 19897829. 14 Mayıs 2012 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: free. Tarih değerini gözden geçirin: |erişimtarihi= ()

[Galvez20172-7] Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877-7503. doi:10.1016/j.jocs.2017.01.001.

[Altszyler20172-8] Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178-187. arXiv:1610.01520 $2. doi:10.1016/j.concog.2017.09.004. (PMID) 28943127.

[Gerry2007-9] Gerry J. Elman (October 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. 26 (5): 435-436. doi:10.1089/blr.2007.9896.

[10] Marc W. Howard; Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). APA PsycNet Direct.

[11] Franklin M. Zaromb; ve diğerleri. (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005. 16 Mart 2023 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 21 Nisan 2025.

[12] Nelson, Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". 1 Eylül 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 8 Mayıs 2011.

[Genevi2005-13] Geneviève Gorrell; Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. 21 Aralık 2008 tarihinde kaynağından (PDF) arşivlendi.

[brand20062-14] Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition". Linear Algebra and Its Applications. 415: 20-30. doi:10.1016/j.laa.2005.07.021. Erişim tarihi: free. Tarih değerini gözden geçirin: |erişimtarihi= ()

[15] "MATLAB". 28 Şubat 2014 tarihinde kaynağından arşivlendi.

[16] "Python". 21 Nisan 2025 tarihinde kaynağından arşivlendi. Erişim tarihi: 21 Nisan 2025.

[17] Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). "A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK". Proceedings of 2011 International Conference on Computer Science and Network Technology. ss. 739-741. doi:10.1109/ICCSNT.2011.6182070. ISBN .

[:02-18] Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. 41 (6): 391-407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.

[19] Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 Kasım 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. (PMC) 4252998 $2. (PMID) 25428570.

[20] Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.

[deerwester19882-21] Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.

[22] Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.

[23] Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "The vocabulary problem in human-system communication". Communications of the ACM. 30 (11): 964-971. doi:10.1145/32206.32212.

[landauer2008-24] Landauer, T., et al., Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report 25 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi., M. I. Jordan, M. J. Kearns & (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.

[25] Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. ss. 148. doi:10.1145/288627.288651. ISBN .

[26] Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "Gene clustering by Latent Semantic Indexing of MEDLINE abstracts". Bioinformatics. 21 (1): 104-115. doi:10.1093/bioinformatics/bth464. (PMID) 15308538.

[27] Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". Intelligence and Security Informatics. Lecture Notes in Computer Science. 3495. s. 602. doi:10.1007/11427995_68. ISBN .

[28] Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.

[29] Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling^[], Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.

[30] Graesser, A.; Karnavat, A. (2000). "Latent Semantic Analysis Captures Causal, Goal-oriented, and Taxonomic Structures". Proceedings of CogSci 2000: 184-189.

[31] Dumais, S.; Nielsen, J. (1992). "Automating the assignment of submitted manuscripts to reviewers". Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '92. ss. 233-244. doi:10.1145/133160.133205. ISBN .

[32] Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).

[33] Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.

[34] Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval 26 Nisan 2025 tarihinde Wayback Machine sitesinde arşivlendi., December 1994, SIAM Review 37:4 (1995), pp. 573–595.

[35] Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.

[36] Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.

[37] Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.

[38] Gong, Y., and Liu, X., Creating Generic Text Summaries 15 Nisan 2024 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.

[39] Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.

[40] Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". Intelligence and Security Informatics. Lecture Notes in Computer Science. 3975. ss. 674-675. doi:10.1007/11760146_84. ISBN .

[41] Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant 8 Ağustos 2019 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.

[42] Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.

[43] Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.

[44] Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models 17 Ağustos 2017 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.

[45] Maletic, J.; Marcus, A. (November 13–15, 2000). "Using latent semantic analysis to identify similarities in source code to support program understanding". Proceedings 12th IEEE Internationals Conference on Tools with Artificial Intelligence. ICTAI 2000. ss. 46-53. doi:10.1109/TAI.2000.889845. ISBN .

[46] Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.

[landauer2004-47] Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization 21 Ocak 2022 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.

[48] Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.

[49] Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery 10 Şubat 2023 tarihinde Wayback Machine sitesinde arşivlendi., Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.

[50] There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.

[51] Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.

[rehurek2011-52] Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". Advances in Information Retrieval. Lecture Notes in Computer Science. 6611. ss. 289-300. doi:10.1007/978-3-642-20161-5_29. ISBN .

[53] Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications 2 Ocak 2018 tarihinde Wayback Machine sitesinde arşivlendi., Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.

[landauer2008b-54] Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.

[55] Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284