Otomatik özetleme, yapay zekâ ve doğal dil işleme tekniklerini kullanarak metinlerin ana fikirlerini ve önemli bilgilerini otomatik olarak çıkarma ve kısaltma işlemidir. Bu işlem, insan müdahalesi olmadan metnin özünü yakalayan kısa ve öz bir özet oluşturmayı amaçlar.
- Uzun metinlerin hızlı bir şekilde özetlenmesi: Makaleler, haberler, raporlar veya kitaplar gibi uzun metinlerin içeriğini hızlı bir şekilde anlamak için kullanılabilir.
- Bilgi arama ve tarama: İnternette bilgi ararken veya büyük miktarda metin tararken, otomatik özetleme, alakalı bilgileri hızla belirlemenize yardımcı olabilir.
- Makine çevirisi: Metinleri bir dilden diğerine çevirirken, otomatik özetleme, çevirinin daha doğru ve akıcı olmasını sağlayabilir.
- Eğitim ve öğretim: Öğrencilerin metinlerin ana fikirlerini kavramasına yardımcı olmak ve kritik düşünme becerilerini geliştirmek için kullanılabilir.
Otomatik özetleme, hâlâ gelişmekte olan bir alandır, ancak metinlerle etkileşimde devrim yaratma potansiyeline sahiptir.
Mekanizma
Otomatik özetleme araçları, metnin anahtar kelimelerini, anahtar cümlelerini ve ana fikirlerini belirlemek için istatistiksel ve dilbilgisi modellerini kullanır. Bunu yapmak için aşağıdaki adımları izlerler:
- Metni Parçalama: Metin, cümleler veya paragraflar gibi daha küçük birimlere bölünür.
- Önemli Kelimeleri ve Cümleleri Belirleme: Her bir birimdeki kelimelerin ve cümlelerin önemi, istatistiksel ve dilbilgisi analizler kullanılarak hesaplanır.
- Ana Fikri Belirleme: Metnin ana fikrini temsil eden kelimeler ve cümleler belirlenir.
- Özet Oluşturma: Belirlenen kelimeler ve cümleler kullanılarak metnin özünü yansıtan kısa bir özet oluşturulur.
Yaklaşımlar
Otomatik özetlemede iki genel yaklaşım vardır: çıkarma ve soyutlamadır .
Çıkarma tabanlı özetleme
Burada içerik orijinal verilerden çıkarılır ancak çıkarılan içerik hiçbir şekilde değiştirilmez. Çıkarılan içeriğe örnek olarak, bir metin belgesini "etiketlemek" veya dizine eklemek için kullanılabilecek anahtar ifadeler veya yukarıda belirtildiği gibi toplu olarak bir özet ve temsili görseller veya video bölümleri içeren anahtar cümleler (başlıklar dahil) dahildir. Metin için çıkarma, özetin (varsa), başlıklar ve alt başlıklar, şekiller, bir bölümün ilk ve son paragrafları ve isteğe bağlı olarak bir paragraftaki ilk ve son cümlelerin seçim yapılmadan önce okunduğu tarama işlemine benzer. belgenin tamamını ayrıntılı olarak okumak için. Klinik uygunluk (hasta/problem, müdahale ve sonuç dahil) açısından metnin anahtar dizilerini içeren diğer çıkarma örnekleri.
Soyutlama temelli özetleme
Soyutlama yöntemleri orijinal metinde bulunmayan yeni metinler üretir. Bu esas olarak metin için uygulanmıştır. Soyutlayıcı yöntemler, orijinal içeriğin içsel bir anlamsal temsilini (genellikle dil modeli olarak adlandırılır) oluşturur ve daha sonra bu temsili, bir insanın ifade edebileceğine daha yakın bir özet oluşturmak için kullanır. Soyutlama, bir metni ayıklamadan daha güçlü bir şekilde yoğunlaştırmak için kaynak belgenin bölümlerini başka sözcüklerle ifade ederek çıkarılan içeriği dönüştürebilir . Bununla birlikte, bu tür bir dönüşüm, hem doğal dil işlemeyi hem de orijinal belgenin özel bir bilgi alanıyla ilgili olduğu durumlarda genellikle orijinal metnin alanının derinlemesine anlaşılmasını gerektirdiğinden, hesaplama açısından çıkarma işleminden çok daha zordur . "Başka sözcüklerle ifade etme"nin resimlere ve videolara uygulanması daha da zordur, bu nedenle çoğu özetleme sistemi çıkarımcıdır.
Destekli özetleme
Daha yüksek özetleme kalitesini hedefleyen yaklaşımlar, yazılım ve insan çabasının birleşimine dayanır. Makine Destekli İnsan Özetlemesinde, çıkarım teknikleri dahil edilmeye aday pasajları (insanın metin eklediği veya çıkardığı) vurgular. İnsan Destekli Makine Özetlemesinde, Google Çeviri tarafından otomatik çeviri çıktısının düzenlenmesiyle aynı şekilde, insan tarafından gerçekleştirilen son işlemler yazılım çıktısı.
Özetlemeye yönelik uygulamalar ve sistemler
Özetleme programının neye odaklandığına bağlı olarak genel olarak iki tür çıkarımsal özetleme görevi vardır. Bunlardan ilki, koleksiyonun genel bir özetini veya özetini elde etmeye odaklanan genel özetlemedir (belgeler, resim kümeleri, videolar, haberler vb.). İkincisi, sorguya özgü nesneleri özetleyen, bazen sorgu tabanlı özetleme olarak da adlandırılan sorguyla ilgili özetlemedir . Özetleme sistemleri, kullanıcının ihtiyacına bağlı olarak hem sorguyla ilgili metin özetleri hem de makine tarafından oluşturulan genel özetler oluşturabilir.
Özetleme probleminin bir örneği, belirli bir belgeden otomatik olarak bir özet üretmeye çalışan belge özetlemedir. Bazen birileri tek bir kaynak belgeden özet oluşturmak isteyebilir, bazıları ise birden fazla kaynak belge kullanabilir (örneğin, aynı konudaki bir makale kümesi ). Bu soruna çoklu belge özetleme adı verilir . İlgili bir uygulama haber makalelerini özetlemektir. Belirli bir konudaki haber makalelerini (web'den) otomatik olarak bir araya getiren ve en son haberleri kısa ve öz bir şekilde özet olarak sunan bir sistem hayal edin.
Görüntü toplama özetleme, otomatik özetlemenin başka bir uygulama örneğidir. Daha geniş bir görüntü kümesinden temsili bir görüntü kümesinin seçilmesinden oluşur. Bu bağlamda bir özet, bir görüntü koleksiyonu araştırma sistemindeki sonuçların en temsili görüntülerini göstermek için kullanışlıdır . Video özetleme, sistemin otomatik olarak uzun bir videonun fragmanını oluşturduğu ilgili bir alandır. Bunun aynı zamanda tüketici veya kişisel videolarda sıkıcı veya tekrarlayan eylemleri atlamak isteyebileceğiniz uygulamaları da vardır. Benzer şekilde, gözetleme videolarında, çekilen tüm sıkıcı ve gereksiz kareler göz ardı edilirken, önemli ve şüpheli etkinliklerin çıkarılması istenebilir.
Özetleme algoritmaları çok yüksek düzeyde, tüm kümenin bilgisini kapsayan nesnelerin alt kümelerini (cümle kümesi veya görüntü kümesi gibi) bulmaya çalışır. Buna çekirdek küme de denir . Bu algoritmalar çeşitlilik, kapsam, bilgi ve özetin temsil edilebilirliği gibi kavramları modeller. Sorgu tabanlı özetleme teknikleri, ayrıca özetin sorguyla ilgisine yönelik model oluşturur. Özetleme problemlerini doğal olarak modelleyen bazı teknikler ve algoritmalar TextRank ve PageRank, Alt modüler küme işlevi, Belirleyici nokta işlemi, maksimum marjinal alaka (MMR) vb.'dir.
Faydaları
- Uzun metinleri hızlı bir şekilde özetleyerek, önemli bilgileri anlamak için gereken süreyi önemli ölçüde azaltır.
- İnternette bilgi ararken veya büyük miktarda metin tararken, otomatik özetleme, alakalı bilgileri hızla belirlemenize yardımcı olabilir.
- Metnin ana fikirlerini ve önemli bilgilerini açıkça sunarak, metnin daha iyi anlaşılmasını sağlar.
- Metinleri bir dilden diğerine çevirirken, otomatik özetleme, çevirinin daha doğru ve akıcı olmasını sağlayabilir.
- Öğrencilerin metinlerin ana fikirlerini kavramasına yardımcı olmak ve eleştirel düşünme becerilerini geliştirmek için kullanılabilir.
Kullanım alanları
Otomatik özetleme, farklı alanlarda birçok uygulamaya sahiptir:
- Haberler ve Makaleler: Haberlerin ve makalelerin ana fikirlerini hızlı bir şekilde öğrenmek için kullanılabilir.
- Akademik Araştırmalar: Araştırma makalelerinin ve bilimsel çalışmaların özetlerini oluşturmak için kullanılabilir.
- Hukuki Belgeler: Sözleşmelerin ve yasal metinlerin özetlerini oluşturmak için kullanılabilir.
- Teknik Dokümantasyon: Kullanım kılavuzları ve teknik el kitaplarının özetlerini oluşturmak için kullanılabilir.
- E-posta ve Sohbetler: Uzun e-posta ve sohbet geçmişlerini özetlemek için kullanılabilir.
Ticari ürünler
2022'de Google Dokümanlar otomatik bir özetleme özelliği yayınladı.
Anahtar kelime çıkarma
Görev şudur. Size bir dergi makalesi gibi bir metin veriliyor ve metinde tartışılan ana konuları kapsayan bir anahtar kelime veya anahtar kelime öbeği listesi oluşturmanız gerekiyor. Araştırma makaleleri söz konusu olduğunda, çoğu yazar manuel olarak atanan anahtar sözcükleri sağlar, ancak çoğu metinde önceden var olan anahtar sözcükler eksiktir. Örneğin, haber makalelerine nadiren anahtar sözcükler eklenir, ancak aşağıda tartışılan bazı uygulamalar için bunu otomatik olarak yapabilmek yararlı olacaktır. Bir haber makalesindeki örnek metni düşünün:
"Başkan Bush'un New Orleans'ı 2006 kasırga sezonunun başlangıcında koruma sözünü yerine getirmek için acele eden Ordu Mühendisler Birliği, kendi uzmanlarının bir fırtına sırasında ekipmanın arızalanabileceği yönündeki uyarılarına rağmen geçen yıl arızalı su baskını kontrol pompaları kurdu. Associated Press tarafından elde edilen belgelere".
Bir anahtar sözcük çıkarıcı, anahtar sözcükler olarak "Ordu Mühendisler Birliği", "Başkan Bush", "New Orleans" ve "kusurlu taşkın kontrol pompaları"nı seçebilir. Bunlar doğrudan metinden alınmıştır. Bunun tersine, soyutlayıcı bir anahtar sözcük sistemi, bir şekilde içeriği içselleştirecek ve metinde görünmeyen, ancak "siyasi ihmal" veya "selden yetersiz korunma" gibi bir insanın üretebileceğine daha çok benzeyen anahtar sözcükler üretecektir. Soyutlama, metnin derinlemesine anlaşılmasını gerektirir ve bu da bilgisayar sistemi için işi zorlaştırır. Anahtar sözcüklerin birçok uygulaması vardır. Kısa bir özet sağlayarak belge taramayı etkinleştirebilir, bilgi alımını geliştirebilir (eğer belgelere atanmış anahtar sözcükler varsa, kullanıcı tam metin aramasından daha güvenilir sonuçlar elde etmek için anahtar sözcükle arama yapabilir ) ve büyük bir dizin girişi oluşturmada kullanılabilir. metin külliyatı.
Farklı literatüre ve anahtar terimlerin, kelimelerin veya ifadelerin tanımına bağlı olarak, anahtar kelime çıkarma oldukça alakalı bir konudur.
Denetimli öğrenme yaklaşımları
Turney'nin çalışmasından başlayarak birçok araştırmacı, anahtar kelime çıkarımına denetimli bir makine öğrenme problemi olarak yaklaştı . Bir belge verildiğinde, metinde bulunan her bir unigram, bigram ve trigram için bir örnek oluştururuz (ancak aşağıda tartışıldığı gibi diğer metin birimleri de mümkündür). Daha sonra her örneği tanımlayan çeşitli özellikleri hesaplıyoruz (örneğin, ifade büyük harfle mi başlıyor?). Bir dizi eğitim belgesi için bilinen anahtar sözcüklerin mevcut olduğunu varsayıyoruz. Bilinen anahtar sözcükleri kullanarak örneklere olumlu veya olumsuz etiketler atayabiliriz. Daha sonra özelliklerin bir fonksiyonu olarak olumlu ve olumsuz örnekleri ayırt edebilen bir sınıflandırıcıyı öğreniyoruz. Bazı sınıflandırıcılar bir test örneği için ikili sınıflandırma yaparken diğerleri bir anahtar sözcük olma olasılığını atar. Örneğin, yukarıdaki metinde, ilk harfleri büyük olan ifadelerin büyük olasılıkla anahtar ifadeler olacağını söyleyen bir kural öğrenebiliriz. Bir öğrenciyi eğittikten sonra test belgeleri için anahtar sözcükleri aşağıdaki şekilde seçebiliriz. Aynı örnek oluşturma stratejisini test belgelerine uyguluyoruz, ardından her örneği öğrenci aracılığıyla çalıştırıyoruz. Öğrenilen modelimiz tarafından döndürülen ikili sınıflandırma kararlarına veya olasılıklara bakarak anahtar sözcükleri belirleyebiliriz. Olasılıklar verilirse anahtar sözcükleri seçmek için bir eşik kullanılır. Anahtar sözcük çıkarıcılar genellikle kesinlik ve geri çağırma kullanılarak değerlendirilir . Hassasiyet, önerilen anahtar sözcüklerden kaçının gerçekte doğru olduğunu ölçer. Geri çağırma, sisteminizin önerdiği gerçek anahtar sözcüklerden kaç tanesini ölçer. İki ölçüm, ikisinin harmonik ortalaması olan bir F-puanında birleştirilebilir (F = 2 PR /(P + R ) ). Önerilen anahtar sözcükler ile bilinen anahtar sözcükler arasındaki eşleşmeler, kök çıkarma veya başka bir metin normalleştirmesi uygulandıktan sonra kontrol edilebilir.
Denetimli bir anahtar sözcük çıkarma sistemi tasarlamak, çeşitli seçeneklere karar vermeyi içerir (bunlardan bazıları denetimsiz olanlar için de geçerlidir). İlk tercih tam olarak örneklerin nasıl oluşturulacağıdır. Turney ve diğerleri, olası tüm unigramları, bigramları ve trigramları, noktalama işaretlerine müdahale etmeden ve engellenen sözcükleri kaldırdıktan sonra kullandılar. Hulth, konuşma parçası etiketlerinin belirli kalıplarıyla eşleşen simge dizileri olacak örnekleri seçerek bir miktar ilerleme elde edebileceğinizi gösterdi. İdeal durumda, örnek oluşturma mekanizması bilinen tüm etiketli anahtar sözcükleri aday olarak üretir, ancak bu çoğu zaman böyle değildir. Örneğin, yalnızca unigram, bigram ve trigram kullanırsak, dört kelime içeren bilinen bir anahtar kelimeyi hiçbir zaman çıkaramayız. Bu nedenle hatırlama zarar görebilir. Ancak çok fazla örnek oluşturmak aynı zamanda düşük hassasiyete de yol açabilir.
Ayrıca örnekleri açıklayan ve bir öğrenme algoritmasının anahtar sözcükleri anahtar sözcükler olmayanlardan ayırt etmesine olanak tanıyacak kadar bilgilendirici özellikler de oluşturmamız gerekir. Tipik olarak özellikler, çeşitli terim sıklıklarını (mevcut metinde veya daha büyük bir derlemede bir ifadenin kaç kez göründüğünü), örneğin uzunluğunu, ilk geçtiği yerin göreceli konumunu, çeşitli boole sözdizimsel özelliklerini (örneğin, tüm büyük harfleri içerir) vb. içerir. Turney gazetesi bu tür yaklaşık 12 özelliği kullandı. Hulth, Turney'nin ufuk açıcı makalesinden türetilen KEA (Anahtar Sözcük Çıkarma Algoritması) çalışmasında en başarılı bulunan, azaltılmış bir dizi özellik kullanıyor.
Sonunda sistemin bir test belgesi için bir anahtar sözcük listesi döndürmesi gerekecek, bu nedenle sayıyı sınırlamanın bir yolunu bulmamız gerekiyor. Kullanıcı tarafından sağlanan sayıda anahtar sözcük sağlamak üzere eşiklendirilebilen sayısal puanlar üretmek için topluluk yöntemleri (yani çeşitli sınıflandırıcılardan gelen oyların kullanılması) kullanılmıştır. Bu Turney tarafından C4.5 karar ağaçlarıyla kullanılan tekniktir. Hulth, öğrenme algoritmasının uygun sayıyı dolaylı olarak belirlemesi için tek bir ikili sınıflandırıcı kullandı.
Örnekler ve özellikler oluşturulduktan sonra anahtar sözcükleri tahmin etmeyi öğrenmenin bir yoluna ihtiyacımız var. Karar ağaçları, Naive Bayes ve kural çıkarımı gibi hemen hemen her türlü denetimli öğrenme algoritması kullanılabilir . Turney'nin GenEx algoritması durumunda, alana özgü bir anahtar sözcük çıkarma algoritmasının parametrelerini öğrenmek için bir genetik algoritma kullanılır. Çıkarıcı, anahtar sözcükleri tanımlamak için bir dizi buluşsal yöntemi takip eder. Genetik algoritma, bilinen anahtar ifadelere sahip eğitim belgelerindeki performansa göre bu buluşsal yöntemlere ilişkin parametreleri optimize eder.
Denetimsiz yaklaşım: TextRank
Başka bir anahtar sözcük çıkarma algoritması TextRank'tır. Denetimli yöntemler, bir anahtar kelimeyi hangi özelliklerin karakterize ettiğine ilişkin yorumlanabilir kurallar üretebilmek gibi bazı güzel özelliklere sahip olsa da, aynı zamanda büyük miktarda eğitim verisi gerektirir . Bilinen anahtar sözcüklere sahip birçok belgeye ihtiyaç vardır. Ayrıca, belirli bir alan üzerinde eğitim, çıkarma sürecini o alana göre özelleştirme eğilimindedir; dolayısıyla, Turney'nin bazı sonuçlarının gösterdiği gibi, ortaya çıkan sınıflandırıcının mutlaka taşınabilir olması gerekmez. Denetimsiz anahtar sözcük çıkarma, eğitim verilerine olan ihtiyacı ortadan kaldırır. Soruna farklı bir açıdan yaklaşıyor. TextRank algoritması anahtar sözcükleri karakterize eden açık özellikleri öğrenmeye çalışmak yerine, PageRank'in önemli Web sayfalarını seçmesi gibi, metinde "merkezi" görünen anahtar sözcükleri belirlemek için metnin kendi yapısından yararlanır . Hatırlayın ki bu, sosyal ağlardan gelen "prestij" veya "tavsiye" kavramına dayanmaktadır . Bu şekilde, TextRank hiçbir şekilde önceki eğitim verilerine dayanmaz, bunun yerine herhangi bir metin parçası üzerinde çalıştırılabilir ve yalnızca metnin kendine özgü özelliklerine dayalı olarak çıktı üretebilir. Böylece algoritma yeni alanlara ve dillere kolayca taşınabilir.
TextRank, NLP için genel amaçlı grafik tabanlı bir sıralama algoritmasıdır . Temel olarak PageRank'i belirli bir NLP görevi için özel olarak tasarlanmış bir grafik üzerinde çalıştırır. Anahtar kelime çıkarımı için, bazı metin birimlerini köşe olarak kullanarak bir grafik oluşturur. Kenarlar, metin birimi köşeleri arasındaki anlamsal veya sözcüksel benzerliğin bir ölçüsüne dayanır . PageRank'ten farklı olarak kenarlar genellikle yönsüzdür ve bir benzerlik derecesini yansıtacak şekilde ağırlıklandırılabilir. Grafik oluşturulduktan sonra, bir sönümleme faktörü ("rastgele sörfçü modelinde" olduğu gibi) ile birleştirilmiş bir stokastik matris oluşturmak için kullanılır ve köşeler üzerindeki sıralama, özdeğer 1'e karşılık gelen özvektörün (yani, grafikteki rastgele yürüyüşün durağan bir dağılımı ).
Köşeler sıralamak istediğimiz şeye karşılık gelmelidir. Potansiyel olarak, denetimli yöntemlere benzer bir şey yapabilir ve her bir unigram, bigram, trigram vb. için bir köşe oluşturabiliriz. Bununla birlikte, grafiği küçük tutmak için yazarlar, ilk adımda tek tek unigramları sıralamaya ve ardından ikinci bir adım eklemeye karar verirler. Çok kelimeli ifadeler oluşturmak için yüksek dereceli bitişik unigramları birleştiren adım. Bunun, keyfi uzunlukta anahtar sözcükler üretmemize izin veren hoş bir yan etkisi vardır. Örneğin, unigramları sıralarsak ve "gelişmiş", "doğal", "dil" ve "işleme" kelimelerinin hepsinin yüksek sıralar aldığını görürsek, orijinal metne bakarız ve bu kelimelerin ardışık olarak göründüğünü ve bir final oluşturduğunu görürüz. dördünün birlikte kullanıldığı anahtar kelime. Grafiğe yerleştirilen unigramların konuşmanın bölümlerine göre filtrelenebileceğini unutmayın. Yazarlar, sıfatların ve isimlerin dahil edilecek en iyi şeyler olduğunu buldu. Dolayısıyla bu adımda bir miktar dil bilgisi devreye giriyor.
Kenarlar, TextRank'in bu uygulamasında kelimelerin birlikte bulunmasına dayalı olarak oluşturulur . Unigramlar orijinal metinde N boyutunda bir pencere içinde görünüyorsa, iki köşe bir kenarla bağlanır . N tipik olarak 2-10 civarındadır. Dolayısıyla NLP ile ilgili bir metinde "doğal" ve "dil" arasında bağlantı kurulabilir. "Doğal" ve "işleme" de bağlantılı olacaktır çünkü her ikisi de aynı N kelime dizisinde görünecektir. Bu kenarlar, "metin bütünlüğü " kavramına ve birbirine yakın görünen kelimelerin muhtemelen anlamlı bir şekilde ilişkili olduğu ve okuyucuya birbirini "tavsiye ettiği" fikrine dayanmaktadır.
Bu yöntem basitçe bireysel köşeleri sıraladığından, sınırlı sayıda anahtar kelimeyi eşiklemek veya üretmek için bir yola ihtiyacımız var. Seçilen teknik, grafikteki toplam köşe sayısının kullanıcı tarafından belirlenen bir kesri olacak şekilde bir T sayısını ayarlamaktır. Daha sonra en üstteki T köşeleri/unigramları durağan olasılıklarına göre seçilir. Daha sonra bu T unigramlarının bitişik örneklerini birleştirmek için bir işlem sonrası adımı uygulanır. Sonuç olarak, potansiyel olarak T'den daha fazla veya daha az nihai anahtar kelime üretilecektir, ancak sayı kabaca orijinal metnin uzunluğuyla orantılı olmalıdır.
PageRank'i bir birlikte oluşum grafiğine uygulamanın neden yararlı anahtar sözcükler üreteceği başlangıçta açık değildir. Bunu düşünmenin bir yolu şudur. Bir metin boyunca birden çok kez geçen bir kelimenin birçok farklı birlikte ortaya çıkan komşusu olabilir. Örneğin, makine öğrenimiyle ilgili bir metinde, "öğrenme" unigramı dört farklı cümlede "makine", "denetlenen", "denetlenmeyen" ve "yarı denetlenen" ile birlikte ortaya çıkabilir. Dolayısıyla "öğrenme" köşesi, bu diğer değiştirici sözcüklere bağlanan merkezi bir "merkez" olacaktır. Grafikte PageRank/TextRank'i çalıştırmak muhtemelen "öğrenmeyi" yüksek bir sıralamaya sokacaktır. Benzer şekilde, eğer metin "denetlenen sınıflandırma" ifadesini içeriyorsa, o zaman "denetlenen" ile "sınıflandırma" arasında bir ayrım olacaktır. Eğer "sınıflandırma" başka yerlerde de karşımıza çıkıyorsa ve dolayısıyla birçok komşusu varsa, önemi "denetlenenin" önemine katkıda bulunacaktır. Eğer yüksek bir sıralamaya ulaşırsa, "öğrenme" ve muhtemelen "sınıflandırma" ile birlikte en iyi T unigramlarından biri olarak seçilecektir. Son işlem sonrası adımında, "denetimli öğrenme" ve "denetimli sınıflandırma" anahtar sözcükleriyle sonuçlanırız.
Kısacası birlikte oluşum grafiği, sıklıkla ve farklı bağlamlarda ortaya çıkan terimler için yoğun şekilde bağlantılı bölgeler içerecektir. Bu grafikteki rastgele bir yürüyüş, kümelerin merkezlerindeki terimlere büyük olasılıklar atayan durağan bir dağılıma sahip olacaktır. Bu, yoğun bağlantılı Web sayfalarının PageRank'e göre üst sıralarda yer almasına benzer. Bu yaklaşım aynı zamanda aşağıda ele alınan belge özetlemede de kullanılmıştır.
Belge özetleme
Anahtar sözcük çıkarma gibi, belge özetleme de bir metnin özünü tanımlamayı amaçlar. Tek gerçek fark, artık daha büyük metin birimleriyle (sözcükler ve ifadeler yerine tam cümleler) uğraşıyor olmamızdır.
Denetimli öğrenme yaklaşımları
Denetimli metin özetleme, denetimli anahtar sözcük çıkarmaya çok benzer. Temel olarak, eğer bir belge koleksiyonunuz ve bunlar için insanlar tarafından oluşturulmuş özetleriniz varsa, onları özete dahil edilmek için iyi adaylar haline getiren cümlelerin özelliklerini öğrenebilirsiniz. Özellikler, belgedeki konumu (örneğin, ilk birkaç cümle muhtemelen önemlidir), cümledeki kelime sayısını vb. içerebilir. Denetimli çıkarımlı özetlemedeki temel zorluk, bilinen özetlerin, cümleler çıkarılarak manuel olarak oluşturulmasının gerekmesidir. Orijinal bir eğitim belgesindeki cümleler "özetle" veya "özetle değil" olarak etiketlenebilir. İnsanların özet oluşturma şekli genellikle bu değildir; bu nedenle yalnızca dergi özetlerini veya mevcut özetleri kullanmak genellikle yeterli değildir. Bu özetlerdeki cümlelerin orijinal metindeki cümlelerle tam olarak eşleşmesi gerekmediğinden, eğitim için örneklere etiket atamak zor olacaktır. Bununla birlikte, ROUGE-1 değerlendirmesi yalnızca unigramları dikkate aldığından, bu doğal özetlerin değerlendirme amacıyla hala kullanılabileceğini unutmayın.
Maksimum entropi tabanlı özetleme
DUC 2001 ve 2002 değerlendirme çalıştayları sırasında TNO, haber alanında çoklu belge özetleme için bir cümle çıkarma sistemi geliştirdi. Sistem, belirginliği modellemek için Naive Bayes sınıflandırıcısını ve istatistiksel dil modellerini kullanan hibrit bir sisteme dayanıyordu . Sistem iyi sonuçlar vermesine rağmen araştırmacılar, ME'nin özellik bağımlılıklarına karşı dayanıklı olduğu bilindiğinden, toplantı özetleme görevi için maksimum entropi (ME) sınıflandırıcısının etkinliğini araştırmak istediler . Maksimum entropi, yayın haber alanında özetleme amacıyla da başarıyla uygulanmıştır.
Uyarlanabilir özetleme
Umut verici bir yaklaşım uyarlanabilir belge/metin özetlemedir. Öncelikle metin türünün tanınmasını ve ardından bu tür için optimize edilmiş özetleme algoritmalarının uygulanmasını içerir. Böyle bir yazılım oluşturuldu.
TextRank ve LexRank
Özetlemeye yönelik denetimsiz yaklaşım aynı zamanda denetimsiz anahtar sözcük çıkarmanın ruhuna oldukça benzer ve maliyetli eğitim verileri sorununun üstesinden gelir. Bazı denetimsiz özetleme yaklaşımları, belgedeki tüm cümlelerin ortalama sözcük vektörü olan bir " merkez " cümlesinin bulunmasına dayanır . Daha sonra cümleler bu merkez cümleye benzerliklerine göre sıralanabilir.
Cümlenin önemini tahmin etmenin daha ilkeli bir yolu, rastgele yürüyüşler ve özvektör merkeziliğini kullanmaktır. LexRank temelde TextRank ile aynı olan bir algoritmadır ve her ikisi de belge özetleme için bu yaklaşımı kullanır. İki yöntem aynı anda farklı gruplar tarafından geliştirildi ve LexRank basitçe özetlemeye odaklandı, ancak anahtar sözcük çıkarma veya başka herhangi bir NLP sıralama görevi için de aynı kolaylıkla kullanılabilir.
Hem LexRank hem de TextRank'ta, belgedeki her cümle için bir köşe oluşturularak bir grafik oluşturulur.
Cümleler arasındaki kenarlar bir tür anlamsal benzerliğe veya içerik örtüşmesine dayanmaktadır. LexRank, TF-IDF vektörlerinin kosinüs benzerliğini kullanırken, TextRank, iki cümlenin ortak olduğu kelime sayısına (cümlelerin uzunluklarına göre normalleştirilmiş ) dayalı çok benzer bir ölçüm kullanır. LexRank makalesi, kosinüs değerlerine bir eşik uyguladıktan sonra ağırlıklandırılmamış kenarların kullanımını araştırdı, ancak aynı zamanda benzerlik puanına eşit ağırlıklara sahip kenarların kullanılmasıyla da deneyler yaptı. TextRank ağırlık olarak sürekli benzerlik puanlarını kullanır.
Her iki algoritmada da cümleler, ortaya çıkan grafiğe PageRank uygulanarak sıralanır. Özetin boyutunu sınırlamak için bir eşik veya uzunluk sınırı kullanılarak en üst sıradaki cümleler birleştirilerek bir özet oluşturulur.
TextRank'ın özetlemeye tam olarak burada açıklandığı gibi uygulandığını, LexRank'ın ise doğrusal bir kombinasyon kullanarak LexRank puanını (durağan olasılık) cümle konumu ve uzunluğu gibi diğer özelliklerle birleştiren daha büyük bir özetleme sisteminin (MEAD ) parçası olarak kullanıldığını belirtmek gerekir. kullanıcı tarafından belirlenen veya otomatik olarak ayarlanmış ağırlıklarla. Bu durumda bazı eğitim belgelerine ihtiyaç duyulabilir, ancak TextRank sonuçları ek özelliklerin kesinlikle gerekli olmadığını göstermektedir.
TextRank'tan farklı olarak LexRank, çoklu belge özetlemeye uygulanmıştır.
Çoklu belge özetleme, aynı konu hakkında yazılmış birden fazla metinden bilgi çıkarmayı amaçlayan otomatik bir prosedürdür. Sonuçta ortaya çıkan özet rapor, profesyonel bilgi tüketicileri gibi bireysel kullanıcıların, geniş bir belge kümesinde yer alan bilgilere hızlı bir şekilde alışmalarına olanak tanır. Bu şekilde, çok belgeli özetleme sistemleri, aşırı bilgi yüklemesiyle başa çıkma yolunda bir sonraki adımı gerçekleştiren haber toplayıcıları tamamlıyor . Bir soruya yanıt olarak çoklu belge özetleme de yapılabilir.
Çoklu belge özetleme, hem kısa hem de kapsamlı bilgi raporları oluşturur. Farklı görüşlerin bir araya getirilip ana hatlarıyla belirlendiği bu kitapta her konu, tek bir belgede birden fazla perspektiften anlatılıyor. Kısa bir özetin amacı, bilgi aramayı basitleştirmek ve en ilgili kaynak belgelere işaret ederek zamanı kısaltmak olsa da, kapsamlı çoklu belge özetinin kendisi gerekli bilgileri içermeli, dolayısıyla orijinal dosyalara erişme ihtiyacı, ayrıntılandırmanın gerekli olduğu durumlarla sınırlandırılmalıdır. gerekli. Otomatik özetler, herhangi bir editoryal dokunuş veya öznel insan müdahalesi olmadan, birden fazla kaynaktan algoritmik olarak alınan bilgileri sunar, böylece tamamen tarafsız hale gelir.
Çeşitlilik
Çok belgeli çıkarımsal özetleme bir fazlalık sorunuyla karşı karşıyadır. İdeal olarak, hem "merkezi" (yani ana fikirleri içeren) hem de "farklı" (yani birbirlerinden farklı) cümleleri çıkarmak istiyoruz. Örneğin, bir olayla ilgili bir dizi haber makalesinde, her makalenin birçok benzer cümle içermesi muhtemeldir. Bu sorunu çözmek için LexRank, cümleleri sıralama sırasına göre ekleyen ancak özette zaten bulunan cümlelere çok benzeyen cümleleri atan buluşsal bir son işlem adımı uygular. Bu yönteme Çapraz Cümle Bilgi Gönderimi (CSIS) adı verilir. Bu yöntemler, cümlelerin okuyucuya başka benzer cümleleri "önerdiği" fikrine dayalı olarak çalışır. Bu nedenle, eğer bir cümle diğer birçok cümleye çok benziyorsa, bu muhtemelen büyük önem taşıyan bir cümle olacaktır. Önemi aynı zamanda onu "tavsiye eden" cümlelerin öneminden de kaynaklanmaktadır. Bu nedenle, üst sıralarda yer almak ve bir özette yer almak için, bir cümlenin birçok cümleye benzer olması ve aynı zamanda diğer birçok cümleye de benzemesi gerekir. Bu sezgisel bir anlam ifade eder ve algoritmaların rastgele yeni bir metne uygulanmasına olanak tanır. Yöntemler alandan bağımsızdır ve kolayca taşınabilir. Haber alanındaki önemli cümleleri gösteren özelliklerin biyomedikal alandakilerden oldukça farklı olabileceği düşünülebilir. Ancak denetimsiz "öneri"ye dayalı yaklaşım her alan için geçerlidir.
İlgili bir yöntem, Markov'u özümsemeye dayalı birleşik bir matematiksel çerçevede hem "merkeziliği" hem de "çeşitliliği" ele alan Page/Lex/TextRank gibi genel amaçlı grafik tabanlı bir sıralama algoritması kullanan Maksimal Marjinal Uygunluktur (MMR) zincirleme rastgele yürüyüşler (belirli durumların yürüyüşü sonlandırdığı rastgele yürüyüş). Algoritmanın adı GRASSHOPPER'dır. Sıralama sürecinde çeşitliliği açıkça teşvik etmenin yanı sıra, GRASSHOPPER bir ön sıralamayı da içermektedir (özetleme durumunda cümle konumuna göre).
Çoklu belge özetlemeye yönelik en son teknoloji sonuçları, alt modüler fonksiyonların karışımları kullanılarak elde edilir. Bu yöntemler, Belge Özetleme Corpora, DUC 04 - 07 için en gelişmiş sonuçları elde etmiştir. DUC-04 için belirleyici nokta işlemlerinin (alt modüler fonksiyonların özel bir durumu olan) kullanılmasıyla benzer sonuçlara ulaşılmıştır.
Fazlalığı önleyen, çok dilli, çok belgeli özetlemeye yönelik yeni bir yöntem, her belgedeki her cümlenin anlamını temsil eden ideogramlar oluşturur, ardından ideogram şeklini ve konumunu karşılaştırarak benzerliği değerlendirir. Kelime sıklığı, eğitim veya ön işleme kullanmaz. Kullanıcı tarafından sağlanan iki parametre kullanır: eşdeğerlik (iki cümle ne zaman eşdeğer kabul edilir?) ve alaka düzeyi (istenen özet ne kadar uzunluktadır?).
Özetleme için genel araçlar olarak alt modüler
Alt modüler küme fonksiyonu fikri son zamanlarda çeşitli özetleme problemleri için güçlü bir modelleme aracı olarak ortaya çıkmıştır. Alt modüler işlevler doğal olarak kapsam, bilgi, temsil ve çeşitlilik kavramlarını modeller . Ayrıca, alt modüler optimizasyonun özel örnekleri olarak birçok önemli kombinatoryal optimizasyon problemi ortaya çıkar. Örneğin, küme örtüsü problemi, küme örtüsü fonksiyonu alt modüler olduğundan, alt modüler optimizasyonun özel bir durumudur. Set cover işlevi, belirli bir kavram kümesini kapsayan nesnelerin bir alt kümesini bulmaya çalışır . Örneğin, belge özetlemede, özetin belgedeki tüm önemli ve ilgili kavramları kapsaması istenir. Bu set kapağının bir örneğidir. Benzer şekilde tesis yerleştirme problemi de alt modüler fonksiyonların özel bir durumudur. Tesis Konumu işlevi aynı zamanda doğal olarak kapsamı ve çeşitliliği de modeller. Alt modüler optimizasyon probleminin bir başka örneği, çeşitliliği modellemek için belirleyici nokta işleminin kullanılmasıdır . Benzer şekilde, Maksimum-Marjinal-Uyum prosedürü de alt modüler optimizasyonun bir örneği olarak görülebilir. Kapsamı, çeşitliliği ve bilgiyi teşvik eden tüm bu önemli modellerin tümü alt modülerdir. Üstelik alt modüler işlevler verimli bir şekilde birleştirilebilir ve sonuçta ortaya çıkan işlev hâlâ alt modülerdir. Dolayısıyla, çeşitliliği modelleyen bir alt modüler fonksiyon, kapsamı modelleyen ve soruna yönelik bir alt modüler fonksiyonun doğru modelini öğrenmek için insan denetimini kullanan bir diğeri birleştirilebilir.
Alt modüler fonksiyonlar özetleme için uygun problemler olsa da, optimizasyon için de oldukça etkili algoritmalara izin verirler. Örneğin, basit bir açgözlü algoritma sabit faktör garantisini kabul eder. Üstelik açgözlü algoritmanın uygulanması son derece basittir ve büyük veri kümelerine ölçeklenebilir, bu da özetleme problemleri için çok önemlidir.
Alt modüler işlevler, neredeyse tüm özetleme sorunları için en son teknolojiyi yakalamıştır. Örneğin, Lin ve Bilmes, 2012 tarafından yapılan çalışma, alt modüler fonksiyonların belge özetleme için DUC-04, DUC-05, DUC-06 ve DUC-07 sistemlerinde bugüne kadarki en iyi sonuçları elde ettiğini göstermektedir. Benzer şekilde, Lin ve Bilmes, 2011, tarafından yapılan çalışma, otomatik özetleme için mevcut birçok sistemin alt modüler fonksiyonların örnekleri olduğunu göstermektedir. Bu, özetleme sorunları için doğru modeller olarak alt modüler işlevlerin oluşturulmasında çığır açan bir sonuçtu.
Alt Modüler İşlevler ayrıca diğer özetleme görevleri için de kullanılmıştır. Tschiatschek ve diğerleri, 2014, modüler fonksiyonların karışımlarının görüntü toplama özetlemesinde en gelişmiş sonuçları elde ettiğini göstermektedir. Benzer şekilde, Bairi ve diğerleri, 2015 çoklu belge konu hiyerarşilerini özetlemek için alt modüler işlevlerin faydasını göstermektedir. Alt Modüler İşlevler, makine öğrenimi veri kümelerini özetlemek için de başarıyla kullanılmıştır.
Uygulamalar
Otomatik özetlemenin spesifik uygulamaları şunları içerir:
· 2011'de oluşturulan Reddit botu "autotldr" , reddit gönderilerinin yorum bölümündeki haber makalelerini özetlemektedir. Özetlerine yüz binlerce kez olumlu oy veren reddit topluluğu tarafından çok faydalı olduğu görüldü. Bu isim TL;DR'ye gönderme yapmaktadır - İnternet argosunda "çok uzun; okumadım".
· Kaybedilen ayrıntı büyük değilse ve özet stil açısından girdiden yeterince farklıysa, ters stilometri özetlerden yararlanabilir.
Değerlendirme
Otomatik özetlerin bilgilendiriciliğini değerlendirmenin en yaygın yolu, bunları insan yapımı model özetlerle karşılaştırmaktır.
ve metinlerarası veya metin içi olabilir .
İçsel ve dışsal
İçsel değerlendirme özetleri doğrudan değerlendirirken, dışsal değerlendirme özetleme sisteminin başka bir görevin tamamlanmasını nasıl etkilediğini değerlendirir. İçsel değerlendirmeler esas olarak özetlerin tutarlılığını ve bilgilendiriciliğini değerlendirmiştir. Dışsal değerlendirmeler ise özetlemenin ilgi değerlendirmesi, okuduğunu anlama vb. görevler üzerindeki etkisini test etmiştir.
Metinlerarası ve metin içi
Metin içi değerlendirme belirli bir özetleme sisteminin çıktısını değerlendirirken, metinlerarası değerlendirme çeşitli özetleme sistemlerinin çıktılarının karşılaştırmalı analizine odaklanır.
İnsan muhakemesi genellikle "iyi" bir özet olarak kabul edilen şey açısından büyük ölçüde farklılık gösterir, bu nedenle otomatik bir değerlendirme süreci oluşturmak özellikle zordur. Manuel değerlendirme kullanılabilir ancak bu, insanların yalnızca özetleri değil aynı zamanda kaynak belgeleri de okumasını gerektirdiğinden hem zaman hem de emek yoğundur. Diğer konular tutarlılık ve kapsam ile ilgili olanlardır .
Özetleri değerlendirmenin en yaygın yolu ROUGE'dir (Gisting Evaluation için Geri Çağırma Odaklı Understudy). NIST'in Belge Anlama Konferanslarında özetleme ve çeviri sistemleri için çok yaygındır . [2] ROUGE, bir özetin, referanslar olarak bilinen, insanlar tarafından oluşturulan özetlerin içeriğini ne kadar iyi kapsadığını gösteren hatırlamaya dayalı bir ölçümdür. Otomatik olarak oluşturulan özetler ile önceden yazılmış insan özetleri arasındaki n gramlık örtüşmeleri hesaplar . Özetlere tüm önemli konuların dahil edilmesini teşvik etmek hatırlamaya dayalıdır. Geri çağırma unigram, bigram, trigram veya 4 gram eşleşmeye göre hesaplanabilir. Örneğin, ROUGE-1, referans özetindeki tüm unigramlar arasında hem referans özetinde hem de otomatik özette görünen unigramların kesridir. Birden fazla referans özeti varsa bunların puanlarının ortalaması alınır. Yüksek seviyedeki örtüşme, iki özet arasında yüksek derecede paylaşılan kavramların göstergesi olmalıdır.
ROUGE, sonucun tutarlı olup olmadığını, yani cümlelerin anlamlı bir şekilde birlikte akıp akmadığını belirleyemez. Yüksek dereceli n-gram ROUGE önlemleri bir dereceye kadar yardımcı olur.
Çözülemeyen bir diğer sorun ise Anaphor çözünürlüğüdür . Benzer şekilde, görüntü özetleme için Tschiatschek ve diğerleri, görüntü özetlemeye yönelik algoritmaların performansını değerlendiren bir Visual-ROUGE puanı geliştirdi.
Alana özgü ve alandan bağımsız özetleme
Alandan bağımsız özetleme teknikleri, bilgi açısından zengin metin bölümlerini tanımlamak için bir dizi genel özellik uygular. Son araştırmalar, tıbbi metinleri özetlemek için tıbbi bilgi ve ontolojiler gibi metnin alanına özgü bilgileri kullanarak alana özgü özetlemeye odaklanmaktadır.
Niteliksel
Şu ana kadar değerlendirme sistemlerinin en büyük dezavantajı, otomatik özetleri modellerle karşılaştırmak için bir referans özetine (bazı yöntemler için birden fazla) ihtiyaç duymamızdır. Bu zor ve pahalı bir iştir. Metinlerden oluşan bir derleme ve bunlara karşılık gelen özetler oluşturmak için çok çaba sarf edilmesi gerekmektedir. Ayrıca, bazı yöntemler özetlerin manuel olarak açıklanmasını gerektirir (örn. Piramit Yönteminde SCU). Üstelik hepsi farklı benzerlik metriklerine göre niceliksel bir değerlendirme yapıyor.
Geçmişi
Konuyla ilgili ilk yayın 1957 yılına dayanmaktadır (Hans Peter Luhn), istatistiksel bir teknikle başlamıştır. Araştırmalar 2015'te önemli ölçüde arttı. 2016'da terim sıklığı - ters belge sıklığı kullanıldı. Desene dayalı özetleme, 2016'ya kadar çoklu belge özetleme için bulunan en güçlü seçenekti. Bir sonraki yıl, gizli semantik analiz (LSA) tarafından geride bırakıldı. negatif olmayan matris çarpanlarına ayırma (NMF) ile birleştirilmiştir. Her ne kadar diğer yaklaşımların yerini almasalar ve sıklıkla onlarla birleştirilseler de, 2019'a gelindiğinde makine öğrenimi yöntemleri, olgunluğa yaklaştığı düşünülen tek belgelerin çıkarımsal özetlenmesinde baskın hâle geldi. 2020 yılına gelindiğinde alan hâlâ çok aktifti ve araştırmalar soyut toplama ve gerçek zamanlı özetlemeye doğru kayıyordu.
Geleceği
Otomatik özetleme, hâlâ gelişmekte olan bir alandır, ancak metinlerle etkileşim şeklimizde devrim yaratma potansiyeline sahiptir. Gelecekte, otomatik özetleme araçları daha da gelişmiş ve kullanışlı hale gelecektir. Bu araçlar, metinleri daha iyi anlayabilecek, daha doğru ve öz özetler oluşturabilecek ve kullanıcılara kişiselleştirilmiş özetler sunabilecektir.
Otomatik özetleme, bilgiye erişim şeklimizi ve işleme şeklimizi dönüştürme potansiyeline sahiptir. Bu güçlü araç, daha fazla bilgiyi daha az sürede anlamamıza ve hayatımızı kolaylaştırmamıza yardımcı olabilir.
Son yaklaşımlar
Son zamanlarda, daha geleneksel RNN'nin (LSTM ) yerini alan transformatör modellerinin yükselişi, metin dizilerinin farklı türdeki metin dizileriyle eşleştirilmesinde, otomatik özetlemeye çok uygun bir esneklik sağlamıştır. Buna T5 ve Pegasus gibi modeller de dahildir.
Kaynakça
- ^ Luhn, Hans Peter (1957). "A Statistical Approach to Mechanized Encoding and Searching of Literary Information". IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Otomatik ozetleme yapay zeka ve dogal dil isleme tekniklerini kullanarak metinlerin ana fikirlerini ve onemli bilgilerini otomatik olarak cikarma ve kisaltma islemidir Bu islem insan mudahalesi olmadan metnin ozunu yakalayan kisa ve oz bir ozet olusturmayi amaclar Uzun metinlerin hizli bir sekilde ozetlenmesi Makaleler haberler raporlar veya kitaplar gibi uzun metinlerin icerigini hizli bir sekilde anlamak icin kullanilabilir Bilgi arama ve tarama Internette bilgi ararken veya buyuk miktarda metin tararken otomatik ozetleme alakali bilgileri hizla belirlemenize yardimci olabilir Makine cevirisi Metinleri bir dilden digerine cevirirken otomatik ozetleme cevirinin daha dogru ve akici olmasini saglayabilir Egitim ve ogretim Ogrencilerin metinlerin ana fikirlerini kavramasina yardimci olmak ve kritik dusunme becerilerini gelistirmek icin kullanilabilir Otomatik ozetleme hala gelismekte olan bir alandir ancak metinlerle etkilesimde devrim yaratma potansiyeline sahiptir MekanizmaOtomatik ozetleme araclari metnin anahtar kelimelerini anahtar cumlelerini ve ana fikirlerini belirlemek icin istatistiksel ve dilbilgisi modellerini kullanir Bunu yapmak icin asagidaki adimlari izlerler Metni Parcalama Metin cumleler veya paragraflar gibi daha kucuk birimlere bolunur Onemli Kelimeleri ve Cumleleri Belirleme Her bir birimdeki kelimelerin ve cumlelerin onemi istatistiksel ve dilbilgisi analizler kullanilarak hesaplanir Ana Fikri Belirleme Metnin ana fikrini temsil eden kelimeler ve cumleler belirlenir Ozet Olusturma Belirlenen kelimeler ve cumleler kullanilarak metnin ozunu yansitan kisa bir ozet olusturulur YaklasimlarOtomatik ozetlemede iki genel yaklasim vardir cikarma ve soyutlamadir Cikarma tabanli ozetleme Burada icerik orijinal verilerden cikarilir ancak cikarilan icerik hicbir sekilde degistirilmez Cikarilan icerige ornek olarak bir metin belgesini etiketlemek veya dizine eklemek icin kullanilabilecek anahtar ifadeler veya yukarida belirtildigi gibi toplu olarak bir ozet ve temsili gorseller veya video bolumleri iceren anahtar cumleler basliklar dahil dahildir Metin icin cikarma ozetin varsa basliklar ve alt basliklar sekiller bir bolumun ilk ve son paragraflari ve istege bagli olarak bir paragraftaki ilk ve son cumlelerin secim yapilmadan once okundugu tarama islemine benzer belgenin tamamini ayrintili olarak okumak icin Klinik uygunluk hasta problem mudahale ve sonuc dahil acisindan metnin anahtar dizilerini iceren diger cikarma ornekleri Soyutlama temelli ozetleme Soyutlama yontemleri orijinal metinde bulunmayan yeni metinler uretir Bu esas olarak metin icin uygulanmistir Soyutlayici yontemler orijinal icerigin icsel bir anlamsal temsilini genellikle dil modeli olarak adlandirilir olusturur ve daha sonra bu temsili bir insanin ifade edebilecegine daha yakin bir ozet olusturmak icin kullanir Soyutlama bir metni ayiklamadan daha guclu bir sekilde yogunlastirmak icin kaynak belgenin bolumlerini baska sozcuklerle ifade ederek cikarilan icerigi donusturebilir Bununla birlikte bu tur bir donusum hem dogal dil islemeyi hem de orijinal belgenin ozel bir bilgi alaniyla ilgili oldugu durumlarda genellikle orijinal metnin alaninin derinlemesine anlasilmasini gerektirdiginden hesaplama acisindan cikarma isleminden cok daha zordur Baska sozcuklerle ifade etme nin resimlere ve videolara uygulanmasi daha da zordur bu nedenle cogu ozetleme sistemi cikarimcidir Destekli ozetleme Daha yuksek ozetleme kalitesini hedefleyen yaklasimlar yazilim ve insan cabasinin birlesimine dayanir Makine Destekli Insan Ozetlemesinde cikarim teknikleri dahil edilmeye aday pasajlari insanin metin ekledigi veya cikardigi vurgular Insan Destekli Makine Ozetlemesinde Google Ceviri tarafindan otomatik ceviri ciktisinin duzenlenmesiyle ayni sekilde insan tarafindan gerceklestirilen son islemler yazilim ciktisi Ozetlemeye yonelik uygulamalar ve sistemlerOzetleme programinin neye odaklandigina bagli olarak genel olarak iki tur cikarimsal ozetleme gorevi vardir Bunlardan ilki koleksiyonun genel bir ozetini veya ozetini elde etmeye odaklanan genel ozetlemedir belgeler resim kumeleri videolar haberler vb Ikincisi sorguya ozgu nesneleri ozetleyen bazen sorgu tabanli ozetleme olarak da adlandirilan sorguyla ilgili ozetlemedir Ozetleme sistemleri kullanicinin ihtiyacina bagli olarak hem sorguyla ilgili metin ozetleri hem de makine tarafindan olusturulan genel ozetler olusturabilir Ozetleme probleminin bir ornegi belirli bir belgeden otomatik olarak bir ozet uretmeye calisan belge ozetlemedir Bazen birileri tek bir kaynak belgeden ozet olusturmak isteyebilir bazilari ise birden fazla kaynak belge kullanabilir ornegin ayni konudaki bir makale kumesi Bu soruna coklu belge ozetleme adi verilir Ilgili bir uygulama haber makalelerini ozetlemektir Belirli bir konudaki haber makalelerini web den otomatik olarak bir araya getiren ve en son haberleri kisa ve oz bir sekilde ozet olarak sunan bir sistem hayal edin Goruntu toplama ozetleme otomatik ozetlemenin baska bir uygulama ornegidir Daha genis bir goruntu kumesinden temsili bir goruntu kumesinin secilmesinden olusur Bu baglamda bir ozet bir goruntu koleksiyonu arastirma sistemindeki sonuclarin en temsili goruntulerini gostermek icin kullanislidir Video ozetleme sistemin otomatik olarak uzun bir videonun fragmanini olusturdugu ilgili bir alandir Bunun ayni zamanda tuketici veya kisisel videolarda sikici veya tekrarlayan eylemleri atlamak isteyebileceginiz uygulamalari da vardir Benzer sekilde gozetleme videolarinda cekilen tum sikici ve gereksiz kareler goz ardi edilirken onemli ve supheli etkinliklerin cikarilmasi istenebilir Ozetleme algoritmalari cok yuksek duzeyde tum kumenin bilgisini kapsayan nesnelerin alt kumelerini cumle kumesi veya goruntu kumesi gibi bulmaya calisir Buna cekirdek kume de denir Bu algoritmalar cesitlilik kapsam bilgi ve ozetin temsil edilebilirligi gibi kavramlari modeller Sorgu tabanli ozetleme teknikleri ayrica ozetin sorguyla ilgisine yonelik model olusturur Ozetleme problemlerini dogal olarak modelleyen bazi teknikler ve algoritmalar TextRank ve PageRank Alt moduler kume islevi Belirleyici nokta islemi maksimum marjinal alaka MMR vb dir FaydalariUzun metinleri hizli bir sekilde ozetleyerek onemli bilgileri anlamak icin gereken sureyi onemli olcude azaltir Internette bilgi ararken veya buyuk miktarda metin tararken otomatik ozetleme alakali bilgileri hizla belirlemenize yardimci olabilir Metnin ana fikirlerini ve onemli bilgilerini acikca sunarak metnin daha iyi anlasilmasini saglar Metinleri bir dilden digerine cevirirken otomatik ozetleme cevirinin daha dogru ve akici olmasini saglayabilir Ogrencilerin metinlerin ana fikirlerini kavramasina yardimci olmak ve elestirel dusunme becerilerini gelistirmek icin kullanilabilir Kullanim alanlariOtomatik ozetleme farkli alanlarda bircok uygulamaya sahiptir Haberler ve Makaleler Haberlerin ve makalelerin ana fikirlerini hizli bir sekilde ogrenmek icin kullanilabilir Akademik Arastirmalar Arastirma makalelerinin ve bilimsel calismalarin ozetlerini olusturmak icin kullanilabilir Hukuki Belgeler Sozlesmelerin ve yasal metinlerin ozetlerini olusturmak icin kullanilabilir Teknik Dokumantasyon Kullanim kilavuzlari ve teknik el kitaplarinin ozetlerini olusturmak icin kullanilabilir E posta ve Sohbetler Uzun e posta ve sohbet gecmislerini ozetlemek icin kullanilabilir Ticari urunler2022 de Google Dokumanlar otomatik bir ozetleme ozelligi yayinladi Anahtar kelime cikarma Gorev sudur Size bir dergi makalesi gibi bir metin veriliyor ve metinde tartisilan ana konulari kapsayan bir anahtar kelime veya anahtar kelime obegi listesi olusturmaniz gerekiyor Arastirma makaleleri soz konusu oldugunda cogu yazar manuel olarak atanan anahtar sozcukleri saglar ancak cogu metinde onceden var olan anahtar sozcukler eksiktir Ornegin haber makalelerine nadiren anahtar sozcukler eklenir ancak asagida tartisilan bazi uygulamalar icin bunu otomatik olarak yapabilmek yararli olacaktir Bir haber makalesindeki ornek metni dusunun Baskan Bush un New Orleans i 2006 kasirga sezonunun baslangicinda koruma sozunu yerine getirmek icin acele eden Ordu Muhendisler Birligi kendi uzmanlarinin bir firtina sirasinda ekipmanin arizalanabilecegi yonundeki uyarilarina ragmen gecen yil arizali su baskini kontrol pompalari kurdu Associated Press tarafindan elde edilen belgelere Bir anahtar sozcuk cikarici anahtar sozcukler olarak Ordu Muhendisler Birligi Baskan Bush New Orleans ve kusurlu taskin kontrol pompalari ni secebilir Bunlar dogrudan metinden alinmistir Bunun tersine soyutlayici bir anahtar sozcuk sistemi bir sekilde icerigi icsellestirecek ve metinde gorunmeyen ancak siyasi ihmal veya selden yetersiz korunma gibi bir insanin uretebilecegine daha cok benzeyen anahtar sozcukler uretecektir Soyutlama metnin derinlemesine anlasilmasini gerektirir ve bu da bilgisayar sistemi icin isi zorlastirir Anahtar sozcuklerin bircok uygulamasi vardir Kisa bir ozet saglayarak belge taramayi etkinlestirebilir bilgi alimini gelistirebilir eger belgelere atanmis anahtar sozcukler varsa kullanici tam metin aramasindan daha guvenilir sonuclar elde etmek icin anahtar sozcukle arama yapabilir ve buyuk bir dizin girisi olusturmada kullanilabilir metin kulliyati Farkli literature ve anahtar terimlerin kelimelerin veya ifadelerin tanimina bagli olarak anahtar kelime cikarma oldukca alakali bir konudur Denetimli ogrenme yaklasimlari Turney nin calismasindan baslayarak bircok arastirmaci anahtar kelime cikarimina denetimli bir makine ogrenme problemi olarak yaklasti Bir belge verildiginde metinde bulunan her bir unigram bigram ve trigram icin bir ornek olustururuz ancak asagida tartisildigi gibi diger metin birimleri de mumkundur Daha sonra her ornegi tanimlayan cesitli ozellikleri hesapliyoruz ornegin ifade buyuk harfle mi basliyor Bir dizi egitim belgesi icin bilinen anahtar sozcuklerin mevcut oldugunu varsayiyoruz Bilinen anahtar sozcukleri kullanarak orneklere olumlu veya olumsuz etiketler atayabiliriz Daha sonra ozelliklerin bir fonksiyonu olarak olumlu ve olumsuz ornekleri ayirt edebilen bir siniflandiriciyi ogreniyoruz Bazi siniflandiricilar bir test ornegi icin ikili siniflandirma yaparken digerleri bir anahtar sozcuk olma olasiligini atar Ornegin yukaridaki metinde ilk harfleri buyuk olan ifadelerin buyuk olasilikla anahtar ifadeler olacagini soyleyen bir kural ogrenebiliriz Bir ogrenciyi egittikten sonra test belgeleri icin anahtar sozcukleri asagidaki sekilde secebiliriz Ayni ornek olusturma stratejisini test belgelerine uyguluyoruz ardindan her ornegi ogrenci araciligiyla calistiriyoruz Ogrenilen modelimiz tarafindan dondurulen ikili siniflandirma kararlarina veya olasiliklara bakarak anahtar sozcukleri belirleyebiliriz Olasiliklar verilirse anahtar sozcukleri secmek icin bir esik kullanilir Anahtar sozcuk cikaricilar genellikle kesinlik ve geri cagirma kullanilarak degerlendirilir Hassasiyet onerilen anahtar sozcuklerden kacinin gercekte dogru oldugunu olcer Geri cagirma sisteminizin onerdigi gercek anahtar sozcuklerden kac tanesini olcer Iki olcum ikisinin harmonik ortalamasi olan bir F puaninda birlestirilebilir F 2 PR P R Onerilen anahtar sozcukler ile bilinen anahtar sozcukler arasindaki eslesmeler kok cikarma veya baska bir metin normallestirmesi uygulandiktan sonra kontrol edilebilir Denetimli bir anahtar sozcuk cikarma sistemi tasarlamak cesitli seceneklere karar vermeyi icerir bunlardan bazilari denetimsiz olanlar icin de gecerlidir Ilk tercih tam olarak orneklerin nasil olusturulacagidir Turney ve digerleri olasi tum unigramlari bigramlari ve trigramlari noktalama isaretlerine mudahale etmeden ve engellenen sozcukleri kaldirdiktan sonra kullandilar Hulth konusma parcasi etiketlerinin belirli kaliplariyla eslesen simge dizileri olacak ornekleri secerek bir miktar ilerleme elde edebileceginizi gosterdi Ideal durumda ornek olusturma mekanizmasi bilinen tum etiketli anahtar sozcukleri aday olarak uretir ancak bu cogu zaman boyle degildir Ornegin yalnizca unigram bigram ve trigram kullanirsak dort kelime iceren bilinen bir anahtar kelimeyi hicbir zaman cikaramayiz Bu nedenle hatirlama zarar gorebilir Ancak cok fazla ornek olusturmak ayni zamanda dusuk hassasiyete de yol acabilir Ayrica ornekleri aciklayan ve bir ogrenme algoritmasinin anahtar sozcukleri anahtar sozcukler olmayanlardan ayirt etmesine olanak taniyacak kadar bilgilendirici ozellikler de olusturmamiz gerekir Tipik olarak ozellikler cesitli terim sikliklarini mevcut metinde veya daha buyuk bir derlemede bir ifadenin kac kez gorundugunu ornegin uzunlugunu ilk gectigi yerin goreceli konumunu cesitli boole sozdizimsel ozelliklerini ornegin tum buyuk harfleri icerir vb icerir Turney gazetesi bu tur yaklasik 12 ozelligi kullandi Hulth Turney nin ufuk acici makalesinden turetilen KEA Anahtar Sozcuk Cikarma Algoritmasi calismasinda en basarili bulunan azaltilmis bir dizi ozellik kullaniyor Sonunda sistemin bir test belgesi icin bir anahtar sozcuk listesi dondurmesi gerekecek bu nedenle sayiyi sinirlamanin bir yolunu bulmamiz gerekiyor Kullanici tarafindan saglanan sayida anahtar sozcuk saglamak uzere esiklendirilebilen sayisal puanlar uretmek icin topluluk yontemleri yani cesitli siniflandiricilardan gelen oylarin kullanilmasi kullanilmistir Bu Turney tarafindan C4 5 karar agaclariyla kullanilan tekniktir Hulth ogrenme algoritmasinin uygun sayiyi dolayli olarak belirlemesi icin tek bir ikili siniflandirici kullandi Ornekler ve ozellikler olusturulduktan sonra anahtar sozcukleri tahmin etmeyi ogrenmenin bir yoluna ihtiyacimiz var Karar agaclari Naive Bayes ve kural cikarimi gibi hemen hemen her turlu denetimli ogrenme algoritmasi kullanilabilir Turney nin GenEx algoritmasi durumunda alana ozgu bir anahtar sozcuk cikarma algoritmasinin parametrelerini ogrenmek icin bir genetik algoritma kullanilir Cikarici anahtar sozcukleri tanimlamak icin bir dizi bulussal yontemi takip eder Genetik algoritma bilinen anahtar ifadelere sahip egitim belgelerindeki performansa gore bu bulussal yontemlere iliskin parametreleri optimize eder Denetimsiz yaklasim TextRank Baska bir anahtar sozcuk cikarma algoritmasi TextRank tir Denetimli yontemler bir anahtar kelimeyi hangi ozelliklerin karakterize ettigine iliskin yorumlanabilir kurallar uretebilmek gibi bazi guzel ozelliklere sahip olsa da ayni zamanda buyuk miktarda egitim verisi gerektirir Bilinen anahtar sozcuklere sahip bircok belgeye ihtiyac vardir Ayrica belirli bir alan uzerinde egitim cikarma surecini o alana gore ozellestirme egilimindedir dolayisiyla Turney nin bazi sonuclarinin gosterdigi gibi ortaya cikan siniflandiricinin mutlaka tasinabilir olmasi gerekmez Denetimsiz anahtar sozcuk cikarma egitim verilerine olan ihtiyaci ortadan kaldirir Soruna farkli bir acidan yaklasiyor TextRank algoritmasi anahtar sozcukleri karakterize eden acik ozellikleri ogrenmeye calismak yerine PageRank in onemli Web sayfalarini secmesi gibi metinde merkezi gorunen anahtar sozcukleri belirlemek icin metnin kendi yapisindan yararlanir Hatirlayin ki bu sosyal aglardan gelen prestij veya tavsiye kavramina dayanmaktadir Bu sekilde TextRank hicbir sekilde onceki egitim verilerine dayanmaz bunun yerine herhangi bir metin parcasi uzerinde calistirilabilir ve yalnizca metnin kendine ozgu ozelliklerine dayali olarak cikti uretebilir Boylece algoritma yeni alanlara ve dillere kolayca tasinabilir TextRank NLP icin genel amacli grafik tabanli bir siralama algoritmasidir Temel olarak PageRank i belirli bir NLP gorevi icin ozel olarak tasarlanmis bir grafik uzerinde calistirir Anahtar kelime cikarimi icin bazi metin birimlerini kose olarak kullanarak bir grafik olusturur Kenarlar metin birimi koseleri arasindaki anlamsal veya sozcuksel benzerligin bir olcusune dayanir PageRank ten farkli olarak kenarlar genellikle yonsuzdur ve bir benzerlik derecesini yansitacak sekilde agirliklandirilabilir Grafik olusturulduktan sonra bir sonumleme faktoru rastgele sorfcu modelinde oldugu gibi ile birlestirilmis bir stokastik matris olusturmak icin kullanilir ve koseler uzerindeki siralama ozdeger 1 e karsilik gelen ozvektorun yani grafikteki rastgele yuruyusun duragan bir dagilimi Koseler siralamak istedigimiz seye karsilik gelmelidir Potansiyel olarak denetimli yontemlere benzer bir sey yapabilir ve her bir unigram bigram trigram vb icin bir kose olusturabiliriz Bununla birlikte grafigi kucuk tutmak icin yazarlar ilk adimda tek tek unigramlari siralamaya ve ardindan ikinci bir adim eklemeye karar verirler Cok kelimeli ifadeler olusturmak icin yuksek dereceli bitisik unigramlari birlestiren adim Bunun keyfi uzunlukta anahtar sozcukler uretmemize izin veren hos bir yan etkisi vardir Ornegin unigramlari siralarsak ve gelismis dogal dil ve isleme kelimelerinin hepsinin yuksek siralar aldigini gorursek orijinal metne bakariz ve bu kelimelerin ardisik olarak gorundugunu ve bir final olusturdugunu goruruz dordunun birlikte kullanildigi anahtar kelime Grafige yerlestirilen unigramlarin konusmanin bolumlerine gore filtrelenebilecegini unutmayin Yazarlar sifatlarin ve isimlerin dahil edilecek en iyi seyler oldugunu buldu Dolayisiyla bu adimda bir miktar dil bilgisi devreye giriyor Kenarlar TextRank in bu uygulamasinda kelimelerin birlikte bulunmasina dayali olarak olusturulur Unigramlar orijinal metinde N boyutunda bir pencere icinde gorunuyorsa iki kose bir kenarla baglanir N tipik olarak 2 10 civarindadir Dolayisiyla NLP ile ilgili bir metinde dogal ve dil arasinda baglanti kurulabilir Dogal ve isleme de baglantili olacaktir cunku her ikisi de ayni N kelime dizisinde gorunecektir Bu kenarlar metin butunlugu kavramina ve birbirine yakin gorunen kelimelerin muhtemelen anlamli bir sekilde iliskili oldugu ve okuyucuya birbirini tavsiye ettigi fikrine dayanmaktadir Bu yontem basitce bireysel koseleri siraladigindan sinirli sayida anahtar kelimeyi esiklemek veya uretmek icin bir yola ihtiyacimiz var Secilen teknik grafikteki toplam kose sayisinin kullanici tarafindan belirlenen bir kesri olacak sekilde bir T sayisini ayarlamaktir Daha sonra en ustteki T koseleri unigramlari duragan olasiliklarina gore secilir Daha sonra bu T unigramlarinin bitisik orneklerini birlestirmek icin bir islem sonrasi adimi uygulanir Sonuc olarak potansiyel olarak T den daha fazla veya daha az nihai anahtar kelime uretilecektir ancak sayi kabaca orijinal metnin uzunluguyla orantili olmalidir PageRank i bir birlikte olusum grafigine uygulamanin neden yararli anahtar sozcukler uretecegi baslangicta acik degildir Bunu dusunmenin bir yolu sudur Bir metin boyunca birden cok kez gecen bir kelimenin bircok farkli birlikte ortaya cikan komsusu olabilir Ornegin makine ogrenimiyle ilgili bir metinde ogrenme unigrami dort farkli cumlede makine denetlenen denetlenmeyen ve yari denetlenen ile birlikte ortaya cikabilir Dolayisiyla ogrenme kosesi bu diger degistirici sozcuklere baglanan merkezi bir merkez olacaktir Grafikte PageRank TextRank i calistirmak muhtemelen ogrenmeyi yuksek bir siralamaya sokacaktir Benzer sekilde eger metin denetlenen siniflandirma ifadesini iceriyorsa o zaman denetlenen ile siniflandirma arasinda bir ayrim olacaktir Eger siniflandirma baska yerlerde de karsimiza cikiyorsa ve dolayisiyla bircok komsusu varsa onemi denetlenenin onemine katkida bulunacaktir Eger yuksek bir siralamaya ulasirsa ogrenme ve muhtemelen siniflandirma ile birlikte en iyi T unigramlarindan biri olarak secilecektir Son islem sonrasi adiminda denetimli ogrenme ve denetimli siniflandirma anahtar sozcukleriyle sonuclaniriz Kisacasi birlikte olusum grafigi siklikla ve farkli baglamlarda ortaya cikan terimler icin yogun sekilde baglantili bolgeler icerecektir Bu grafikteki rastgele bir yuruyus kumelerin merkezlerindeki terimlere buyuk olasiliklar atayan duragan bir dagilima sahip olacaktir Bu yogun baglantili Web sayfalarinin PageRank e gore ust siralarda yer almasina benzer Bu yaklasim ayni zamanda asagida ele alinan belge ozetlemede de kullanilmistir Belge ozetleme Anahtar sozcuk cikarma gibi belge ozetleme de bir metnin ozunu tanimlamayi amaclar Tek gercek fark artik daha buyuk metin birimleriyle sozcukler ve ifadeler yerine tam cumleler ugrasiyor olmamizdir Denetimli ogrenme yaklasimlari Denetimli metin ozetleme denetimli anahtar sozcuk cikarmaya cok benzer Temel olarak eger bir belge koleksiyonunuz ve bunlar icin insanlar tarafindan olusturulmus ozetleriniz varsa onlari ozete dahil edilmek icin iyi adaylar haline getiren cumlelerin ozelliklerini ogrenebilirsiniz Ozellikler belgedeki konumu ornegin ilk birkac cumle muhtemelen onemlidir cumledeki kelime sayisini vb icerebilir Denetimli cikarimli ozetlemedeki temel zorluk bilinen ozetlerin cumleler cikarilarak manuel olarak olusturulmasinin gerekmesidir Orijinal bir egitim belgesindeki cumleler ozetle veya ozetle degil olarak etiketlenebilir Insanlarin ozet olusturma sekli genellikle bu degildir bu nedenle yalnizca dergi ozetlerini veya mevcut ozetleri kullanmak genellikle yeterli degildir Bu ozetlerdeki cumlelerin orijinal metindeki cumlelerle tam olarak eslesmesi gerekmediginden egitim icin orneklere etiket atamak zor olacaktir Bununla birlikte ROUGE 1 degerlendirmesi yalnizca unigramlari dikkate aldigindan bu dogal ozetlerin degerlendirme amaciyla hala kullanilabilecegini unutmayin Maksimum entropi tabanli ozetleme DUC 2001 ve 2002 degerlendirme calistaylari sirasinda TNO haber alaninda coklu belge ozetleme icin bir cumle cikarma sistemi gelistirdi Sistem belirginligi modellemek icin Naive Bayes siniflandiricisini ve istatistiksel dil modellerini kullanan hibrit bir sisteme dayaniyordu Sistem iyi sonuclar vermesine ragmen arastirmacilar ME nin ozellik bagimliliklarina karsi dayanikli oldugu bilindiginden toplanti ozetleme gorevi icin maksimum entropi ME siniflandiricisinin etkinligini arastirmak istediler Maksimum entropi yayin haber alaninda ozetleme amaciyla da basariyla uygulanmistir Uyarlanabilir ozetleme Umut verici bir yaklasim uyarlanabilir belge metin ozetlemedir Oncelikle metin turunun taninmasini ve ardindan bu tur icin optimize edilmis ozetleme algoritmalarinin uygulanmasini icerir Boyle bir yazilim olusturuldu TextRank ve LexRank Ozetlemeye yonelik denetimsiz yaklasim ayni zamanda denetimsiz anahtar sozcuk cikarmanin ruhuna oldukca benzer ve maliyetli egitim verileri sorununun ustesinden gelir Bazi denetimsiz ozetleme yaklasimlari belgedeki tum cumlelerin ortalama sozcuk vektoru olan bir merkez cumlesinin bulunmasina dayanir Daha sonra cumleler bu merkez cumleye benzerliklerine gore siralanabilir Cumlenin onemini tahmin etmenin daha ilkeli bir yolu rastgele yuruyusler ve ozvektor merkeziligini kullanmaktir LexRank temelde TextRank ile ayni olan bir algoritmadir ve her ikisi de belge ozetleme icin bu yaklasimi kullanir Iki yontem ayni anda farkli gruplar tarafindan gelistirildi ve LexRank basitce ozetlemeye odaklandi ancak anahtar sozcuk cikarma veya baska herhangi bir NLP siralama gorevi icin de ayni kolaylikla kullanilabilir Hem LexRank hem de TextRank ta belgedeki her cumle icin bir kose olusturularak bir grafik olusturulur Cumleler arasindaki kenarlar bir tur anlamsal benzerlige veya icerik ortusmesine dayanmaktadir LexRank TF IDF vektorlerinin kosinus benzerligini kullanirken TextRank iki cumlenin ortak oldugu kelime sayisina cumlelerin uzunluklarina gore normallestirilmis dayali cok benzer bir olcum kullanir LexRank makalesi kosinus degerlerine bir esik uyguladiktan sonra agirliklandirilmamis kenarlarin kullanimini arastirdi ancak ayni zamanda benzerlik puanina esit agirliklara sahip kenarlarin kullanilmasiyla da deneyler yapti TextRank agirlik olarak surekli benzerlik puanlarini kullanir Her iki algoritmada da cumleler ortaya cikan grafige PageRank uygulanarak siralanir Ozetin boyutunu sinirlamak icin bir esik veya uzunluk siniri kullanilarak en ust siradaki cumleler birlestirilerek bir ozet olusturulur TextRank in ozetlemeye tam olarak burada aciklandigi gibi uygulandigini LexRank in ise dogrusal bir kombinasyon kullanarak LexRank puanini duragan olasilik cumle konumu ve uzunlugu gibi diger ozelliklerle birlestiren daha buyuk bir ozetleme sisteminin MEAD parcasi olarak kullanildigini belirtmek gerekir kullanici tarafindan belirlenen veya otomatik olarak ayarlanmis agirliklarla Bu durumda bazi egitim belgelerine ihtiyac duyulabilir ancak TextRank sonuclari ek ozelliklerin kesinlikle gerekli olmadigini gostermektedir TextRank tan farkli olarak LexRank coklu belge ozetlemeye uygulanmistir Coklu belge ozetleme ayni konu hakkinda yazilmis birden fazla metinden bilgi cikarmayi amaclayan otomatik bir prosedurdur Sonucta ortaya cikan ozet rapor profesyonel bilgi tuketicileri gibi bireysel kullanicilarin genis bir belge kumesinde yer alan bilgilere hizli bir sekilde alismalarina olanak tanir Bu sekilde cok belgeli ozetleme sistemleri asiri bilgi yuklemesiyle basa cikma yolunda bir sonraki adimi gerceklestiren haber toplayicilari tamamliyor Bir soruya yanit olarak coklu belge ozetleme de yapilabilir Coklu belge ozetleme hem kisa hem de kapsamli bilgi raporlari olusturur Farkli goruslerin bir araya getirilip ana hatlariyla belirlendigi bu kitapta her konu tek bir belgede birden fazla perspektiften anlatiliyor Kisa bir ozetin amaci bilgi aramayi basitlestirmek ve en ilgili kaynak belgelere isaret ederek zamani kisaltmak olsa da kapsamli coklu belge ozetinin kendisi gerekli bilgileri icermeli dolayisiyla orijinal dosyalara erisme ihtiyaci ayrintilandirmanin gerekli oldugu durumlarla sinirlandirilmalidir gerekli Otomatik ozetler herhangi bir editoryal dokunus veya oznel insan mudahalesi olmadan birden fazla kaynaktan algoritmik olarak alinan bilgileri sunar boylece tamamen tarafsiz hale gelir Cesitlilik Cok belgeli cikarimsal ozetleme bir fazlalik sorunuyla karsi karsiyadir Ideal olarak hem merkezi yani ana fikirleri iceren hem de farkli yani birbirlerinden farkli cumleleri cikarmak istiyoruz Ornegin bir olayla ilgili bir dizi haber makalesinde her makalenin bircok benzer cumle icermesi muhtemeldir Bu sorunu cozmek icin LexRank cumleleri siralama sirasina gore ekleyen ancak ozette zaten bulunan cumlelere cok benzeyen cumleleri atan bulussal bir son islem adimi uygular Bu yonteme Capraz Cumle Bilgi Gonderimi CSIS adi verilir Bu yontemler cumlelerin okuyucuya baska benzer cumleleri onerdigi fikrine dayali olarak calisir Bu nedenle eger bir cumle diger bircok cumleye cok benziyorsa bu muhtemelen buyuk onem tasiyan bir cumle olacaktir Onemi ayni zamanda onu tavsiye eden cumlelerin oneminden de kaynaklanmaktadir Bu nedenle ust siralarda yer almak ve bir ozette yer almak icin bir cumlenin bircok cumleye benzer olmasi ve ayni zamanda diger bircok cumleye de benzemesi gerekir Bu sezgisel bir anlam ifade eder ve algoritmalarin rastgele yeni bir metne uygulanmasina olanak tanir Yontemler alandan bagimsizdir ve kolayca tasinabilir Haber alanindaki onemli cumleleri gosteren ozelliklerin biyomedikal alandakilerden oldukca farkli olabilecegi dusunulebilir Ancak denetimsiz oneri ye dayali yaklasim her alan icin gecerlidir Ilgili bir yontem Markov u ozumsemeye dayali birlesik bir matematiksel cercevede hem merkeziligi hem de cesitliligi ele alan Page Lex TextRank gibi genel amacli grafik tabanli bir siralama algoritmasi kullanan Maksimal Marjinal Uygunluktur MMR zincirleme rastgele yuruyusler belirli durumlarin yuruyusu sonlandirdigi rastgele yuruyus Algoritmanin adi GRASSHOPPER dir Siralama surecinde cesitliligi acikca tesvik etmenin yani sira GRASSHOPPER bir on siralamayi da icermektedir ozetleme durumunda cumle konumuna gore Coklu belge ozetlemeye yonelik en son teknoloji sonuclari alt moduler fonksiyonlarin karisimlari kullanilarak elde edilir Bu yontemler Belge Ozetleme Corpora DUC 04 07 icin en gelismis sonuclari elde etmistir DUC 04 icin belirleyici nokta islemlerinin alt moduler fonksiyonlarin ozel bir durumu olan kullanilmasiyla benzer sonuclara ulasilmistir Fazlaligi onleyen cok dilli cok belgeli ozetlemeye yonelik yeni bir yontem her belgedeki her cumlenin anlamini temsil eden ideogramlar olusturur ardindan ideogram seklini ve konumunu karsilastirarak benzerligi degerlendirir Kelime sikligi egitim veya on isleme kullanmaz Kullanici tarafindan saglanan iki parametre kullanir esdegerlik iki cumle ne zaman esdeger kabul edilir ve alaka duzeyi istenen ozet ne kadar uzunluktadir Ozetleme icin genel araclar olarak alt moduler Alt moduler kume fonksiyonu fikri son zamanlarda cesitli ozetleme problemleri icin guclu bir modelleme araci olarak ortaya cikmistir Alt moduler islevler dogal olarak kapsam bilgi temsil ve cesitlilik kavramlarini modeller Ayrica alt moduler optimizasyonun ozel ornekleri olarak bircok onemli kombinatoryal optimizasyon problemi ortaya cikar Ornegin kume ortusu problemi kume ortusu fonksiyonu alt moduler oldugundan alt moduler optimizasyonun ozel bir durumudur Set cover islevi belirli bir kavram kumesini kapsayan nesnelerin bir alt kumesini bulmaya calisir Ornegin belge ozetlemede ozetin belgedeki tum onemli ve ilgili kavramlari kapsamasi istenir Bu set kapaginin bir ornegidir Benzer sekilde tesis yerlestirme problemi de alt moduler fonksiyonlarin ozel bir durumudur Tesis Konumu islevi ayni zamanda dogal olarak kapsami ve cesitliligi de modeller Alt moduler optimizasyon probleminin bir baska ornegi cesitliligi modellemek icin belirleyici nokta isleminin kullanilmasidir Benzer sekilde Maksimum Marjinal Uyum proseduru de alt moduler optimizasyonun bir ornegi olarak gorulebilir Kapsami cesitliligi ve bilgiyi tesvik eden tum bu onemli modellerin tumu alt modulerdir Ustelik alt moduler islevler verimli bir sekilde birlestirilebilir ve sonucta ortaya cikan islev hala alt modulerdir Dolayisiyla cesitliligi modelleyen bir alt moduler fonksiyon kapsami modelleyen ve soruna yonelik bir alt moduler fonksiyonun dogru modelini ogrenmek icin insan denetimini kullanan bir digeri birlestirilebilir Alt moduler fonksiyonlar ozetleme icin uygun problemler olsa da optimizasyon icin de oldukca etkili algoritmalara izin verirler Ornegin basit bir acgozlu algoritma sabit faktor garantisini kabul eder Ustelik acgozlu algoritmanin uygulanmasi son derece basittir ve buyuk veri kumelerine olceklenebilir bu da ozetleme problemleri icin cok onemlidir Alt moduler islevler neredeyse tum ozetleme sorunlari icin en son teknolojiyi yakalamistir Ornegin Lin ve Bilmes 2012 tarafindan yapilan calisma alt moduler fonksiyonlarin belge ozetleme icin DUC 04 DUC 05 DUC 06 ve DUC 07 sistemlerinde bugune kadarki en iyi sonuclari elde ettigini gostermektedir Benzer sekilde Lin ve Bilmes 2011 tarafindan yapilan calisma otomatik ozetleme icin mevcut bircok sistemin alt moduler fonksiyonlarin ornekleri oldugunu gostermektedir Bu ozetleme sorunlari icin dogru modeller olarak alt moduler islevlerin olusturulmasinda cigir acan bir sonuctu Alt Moduler Islevler ayrica diger ozetleme gorevleri icin de kullanilmistir Tschiatschek ve digerleri 2014 moduler fonksiyonlarin karisimlarinin goruntu toplama ozetlemesinde en gelismis sonuclari elde ettigini gostermektedir Benzer sekilde Bairi ve digerleri 2015 coklu belge konu hiyerarsilerini ozetlemek icin alt moduler islevlerin faydasini gostermektedir Alt Moduler Islevler makine ogrenimi veri kumelerini ozetlemek icin de basariyla kullanilmistir Uygulamalar Otomatik ozetlemenin spesifik uygulamalari sunlari icerir 2011 de olusturulan Reddit botu autotldr reddit gonderilerinin yorum bolumundeki haber makalelerini ozetlemektedir Ozetlerine yuz binlerce kez olumlu oy veren reddit toplulugu tarafindan cok faydali oldugu goruldu Bu isim TL DR ye gonderme yapmaktadir Internet argosunda cok uzun okumadim Kaybedilen ayrinti buyuk degilse ve ozet stil acisindan girdiden yeterince farkliysa ters stilometri ozetlerden yararlanabilir DegerlendirmeOtomatik ozetlerin bilgilendiriciligini degerlendirmenin en yaygin yolu bunlari insan yapimi model ozetlerle karsilastirmaktir ve metinlerarasi veya metin ici olabilir Icsel ve dissal Icsel degerlendirme ozetleri dogrudan degerlendirirken dissal degerlendirme ozetleme sisteminin baska bir gorevin tamamlanmasini nasil etkiledigini degerlendirir Icsel degerlendirmeler esas olarak ozetlerin tutarliligini ve bilgilendiriciligini degerlendirmistir Dissal degerlendirmeler ise ozetlemenin ilgi degerlendirmesi okudugunu anlama vb gorevler uzerindeki etkisini test etmistir Metinlerarasi ve metin ici Metin ici degerlendirme belirli bir ozetleme sisteminin ciktisini degerlendirirken metinlerarasi degerlendirme cesitli ozetleme sistemlerinin ciktilarinin karsilastirmali analizine odaklanir Insan muhakemesi genellikle iyi bir ozet olarak kabul edilen sey acisindan buyuk olcude farklilik gosterir bu nedenle otomatik bir degerlendirme sureci olusturmak ozellikle zordur Manuel degerlendirme kullanilabilir ancak bu insanlarin yalnizca ozetleri degil ayni zamanda kaynak belgeleri de okumasini gerektirdiginden hem zaman hem de emek yogundur Diger konular tutarlilik ve kapsam ile ilgili olanlardir Ozetleri degerlendirmenin en yaygin yolu ROUGE dir Gisting Evaluation icin Geri Cagirma Odakli Understudy NIST in Belge Anlama Konferanslarinda ozetleme ve ceviri sistemleri icin cok yaygindir 2 ROUGE bir ozetin referanslar olarak bilinen insanlar tarafindan olusturulan ozetlerin icerigini ne kadar iyi kapsadigini gosteren hatirlamaya dayali bir olcumdur Otomatik olarak olusturulan ozetler ile onceden yazilmis insan ozetleri arasindaki n gramlik ortusmeleri hesaplar Ozetlere tum onemli konularin dahil edilmesini tesvik etmek hatirlamaya dayalidir Geri cagirma unigram bigram trigram veya 4 gram eslesmeye gore hesaplanabilir Ornegin ROUGE 1 referans ozetindeki tum unigramlar arasinda hem referans ozetinde hem de otomatik ozette gorunen unigramlarin kesridir Birden fazla referans ozeti varsa bunlarin puanlarinin ortalamasi alinir Yuksek seviyedeki ortusme iki ozet arasinda yuksek derecede paylasilan kavramlarin gostergesi olmalidir ROUGE sonucun tutarli olup olmadigini yani cumlelerin anlamli bir sekilde birlikte akip akmadigini belirleyemez Yuksek dereceli n gram ROUGE onlemleri bir dereceye kadar yardimci olur Cozulemeyen bir diger sorun ise Anaphor cozunurlugudur Benzer sekilde goruntu ozetleme icin Tschiatschek ve digerleri goruntu ozetlemeye yonelik algoritmalarin performansini degerlendiren bir Visual ROUGE puani gelistirdi Alana ozgu ve alandan bagimsiz ozetleme Alandan bagimsiz ozetleme teknikleri bilgi acisindan zengin metin bolumlerini tanimlamak icin bir dizi genel ozellik uygular Son arastirmalar tibbi metinleri ozetlemek icin tibbi bilgi ve ontolojiler gibi metnin alanina ozgu bilgileri kullanarak alana ozgu ozetlemeye odaklanmaktadir Niteliksel Su ana kadar degerlendirme sistemlerinin en buyuk dezavantaji otomatik ozetleri modellerle karsilastirmak icin bir referans ozetine bazi yontemler icin birden fazla ihtiyac duymamizdir Bu zor ve pahali bir istir Metinlerden olusan bir derleme ve bunlara karsilik gelen ozetler olusturmak icin cok caba sarf edilmesi gerekmektedir Ayrica bazi yontemler ozetlerin manuel olarak aciklanmasini gerektirir orn Piramit Yonteminde SCU Ustelik hepsi farkli benzerlik metriklerine gore niceliksel bir degerlendirme yapiyor GecmisiKonuyla ilgili ilk yayin 1957 yilina dayanmaktadir Hans Peter Luhn istatistiksel bir teknikle baslamistir Arastirmalar 2015 te onemli olcude artti 2016 da terim sikligi ters belge sikligi kullanildi Desene dayali ozetleme 2016 ya kadar coklu belge ozetleme icin bulunan en guclu secenekti Bir sonraki yil gizli semantik analiz LSA tarafindan geride birakildi negatif olmayan matris carpanlarina ayirma NMF ile birlestirilmistir Her ne kadar diger yaklasimlarin yerini almasalar ve siklikla onlarla birlestirilseler de 2019 a gelindiginde makine ogrenimi yontemleri olgunluga yaklastigi dusunulen tek belgelerin cikarimsal ozetlenmesinde baskin hale geldi 2020 yilina gelindiginde alan hala cok aktifti ve arastirmalar soyut toplama ve gercek zamanli ozetlemeye dogru kayiyordu GelecegiOtomatik ozetleme hala gelismekte olan bir alandir ancak metinlerle etkilesim seklimizde devrim yaratma potansiyeline sahiptir Gelecekte otomatik ozetleme araclari daha da gelismis ve kullanisli hale gelecektir Bu araclar metinleri daha iyi anlayabilecek daha dogru ve oz ozetler olusturabilecek ve kullanicilara kisisellestirilmis ozetler sunabilecektir Otomatik ozetleme bilgiye erisim seklimizi ve isleme seklimizi donusturme potansiyeline sahiptir Bu guclu arac daha fazla bilgiyi daha az surede anlamamiza ve hayatimizi kolaylastirmamiza yardimci olabilir Son yaklasimlar Son zamanlarda daha geleneksel RNN nin LSTM yerini alan transformator modellerinin yukselisi metin dizilerinin farkli turdeki metin dizileriyle eslestirilmesinde otomatik ozetlemeye cok uygun bir esneklik saglamistir Buna T5 ve Pegasus gibi modeller de dahildir Kaynakca Luhn Hans Peter 1957 A Statistical Approach to Mechanized Encoding and Searching of Literary Information IBM Journal of Research and Development 1 4 309 317 doi 10 1147 rd 14 0309
