Kesamaan Kalimat Berdasarkan
Jaring Semantik dan Statistik Corpus
TUGAS SOFTSKILL JURNAL
KELOMPOK 18
Aqil Darisi (50416999)
Luthfriandi (54416151)
Rachmat Andy (55416905)
Abstrak
langkah-langkah kesamaan kalimat memainkan peran yang
semakin penting dalam text penelitian terkait dan aplikasi di berbagai bidang
seperti pertambangan teks, pengambilan halaman web dan sistem dialog. metode
yang ada untuk komputasi kalimat kesamaan telah diadopsi dari pendekatan yang
digunakan untuk dokumen teks yang panjang. Metode-metode ini proses kalimat
dalam ruang dimensi yang sangat tinggi dan akibatnya tidak efisien, membutuhkan
input manusia dan tidak beradaptasi dengan beberapa domain aplikasi. Makalah
ini berfokuslangsung pada komputasi kesamaan antara teks-teks yang sangat
singkat panjang kalimat. Saya menyajikan suatu algoritma yang memperhitungkan
informasi semantik dan urutan kata informasi tersirat dalam kalimat. Kesamaan
semantik dari dua kalimat adalah dihitung dengan menggunakan informasi dari
database leksikal terstruktur dan dari corpus statistik. Penggunaan database
leksikal memungkinkan metode kami untuk model yang umum manusia akal
pengetahuan dan penggabungan statistik corpus memungkinkan metode kami untuk
menjadi beradaptasi dengan domain yang berbeda. Metode yang diusulkan dapat
digunakan dalam berbagai aplikasi yang melibatkan teks pengetahuan representasi
dan penemuan. percobaan pada dua set pasang kalimat yang dipilih menunjukkan
bahwa metode yang diusulkan memberikan kesamaan ukuran yang menunjukkan
korelasi yang signifikan untuk intuisi manusia.
Pengantar
aplikasi terbaru dari
pengolahan bahasa alami menyajikan kebutuhan untuk efektif metode untuk
menghitung kesamaan antara teks yang sangat singkat atau kalimat [25]. Sebuah Contoh
dari ini adalah agen / sistem dialog percakapan dengan strategi naskah [1] di yang
kalimat kesamaan penting untuk pelaksanaannya. Kerja dengan Kalimat kesamaan
secara signifikan dapat menyederhanakan agen "s basis pengetahuan dengan
menggunakan kalimat alami daripada pola struktural kalimat. Kalimat kesamaan
akan memiliki aplikasi terkait internet juga. Dalam halaman pencarian web,
kalimat kesamaan memiliki terbukti menjadi salah satu teknik terbaik untuk
meningkatkan efektivitas pengambilan, di mana judul digunakan untuk mewakili
dokumen dalam nama halaman temuan tugas [29]. dalam gambar pengambilan dari
web, penggunaan teks singkat seputar gambar dapat mencapai yang lebih tinggi pengambilan
presisi dari penggunaan seluruh dokumen yang gambar tertanam [8].
Dalam pertambangan teks, kalimat kesamaan digunakan sebagai kriteria untuk
menemukan tak terlihat pengetahuan dari database tekstual [2]. Selain
itu, penggabungan pendek-teks kesamaan bermanfaat untuk aplikasi seperti
summarization teks [9], teks kategorisasi [15] dan mesin
terjemahan [21]. Aplikasi ini contoh menunjukkan bahwa komputasi
kalimat kesamaan telah menjadi komponen generik untuk penelitian masyarakat
yang terlibat dalam representasi pengetahuan yang berhubungan dengan teks dan
penemuan. Secara tradisional, teknik untuk mendeteksi kesamaan antara teks
panjang (dokumen) telah berpusat pada analisis kata bersama [36].
Pekerjaan yang berhubungan
Secara umum, ada literatur yang luas pada pengukuran
kesamaan antara dokumen atau teks panjang [1], [12], [17], [24], tetapi ada
sangat sedikit publikasi yang berkaitan dengan pengukuran kesamaan antara
teks yang sangat singkat [10] atau kalimat. Bagian ini ulasan
beberapa pekerjaan terkait untuk mengeksplorasi kekuatan dan keterbatasan
sebelumnya metode, dan untuk mengidentifikasi kesulitan tertentu dalam
komputasi kalimat kesamaan. karya terkait secara kasar dapat diklasifikasikan
ke dalam tiga kategori utama: kata co-terjadinya metode, metode berbasis
corpus, metode berbasis fitur deskriptif. Metode kata co-kejadian yang sering
dikenal sebagai “kantong kata" metode. Hal ini umumnya digunakan dalam
Information Retrieval (IR) sistem [24]. Sistem memiliki pre-compiled daftar
kata dengan n kata-kata. Nilai dari n umumnya dalam ribuan atau ratusan ribu
untuk mencakup semua kata-kata yang bermakna dalam bahasa alami. Setiap dokumen
yang diwakili menggunakan kata-kata ini sebagai vektor di n dimensi ruang.
SEBUAH permintaan juga dianggap sebagai dokumen. Dokumen yang relevan kemudian
diambil berdasarkan kesamaan antara vektor query dan vektor dokumen. Ini teknik
bergantung pada asumsi bahwa dokumen lebih mirip berbagi lebih sama kata-kata.
Jika teknik ini diterapkan untuk kalimat kesamaan, itu akan memiliki tiga jelas
Metode yang digunakan
Metode yang diusulkan berasal kesamaan teks dari
informasi semantik dan sintaksis terkandung dalam teks-teks dibandingkan.
Sebuah teks dianggap urutan kata-kata masing-masing yang membawa informasi yang
berguna. Kata-kata bersama dengan struktur kombinasi mereka membuat teks
menyampaikan makna tertentu. Teks dipertimbangkan dalam makalah ini diasumsikan
panjang kalimat. Gambar 1 menunjukkan prosedur untuk
menghitung kesamaan antara dua kalimat kalimat kandidat. Tidak seperti metode
yang sudah ada yang menggunakan satu set tetap kosa kata, yang Metode yang
diusulkan secara dinamis membentuk kata patungan didirikan hanya menggunakan
semua kata yang berbeda dalam pasangan kalimat. Untuk setiap kalimat, vektor
semantik baku berasal dengan bantuan dari database leksikal. Sebuah vektor
urutan kata dibentuk untuk setiap kalimat, lagi menggunakan informasi dari
database leksikal. Karena setiap kata dalam memberikan kontribusi kalimat berbeda
dengan makna seluruh kalimat, arti dari sebuah kata tertimbang dengan
menggunakan konten informasi yang diperoleh dari corpus a. Dengan menggabungkan
semantik baku vektor dengan konten
informasi dari korpus, vektor semantik diperoleh untuk setiapdari dua kalimat.
kesamaan semantik dihitung berdasarkan dua semantic vektor. Kesamaan rangka
dihitung dengan menggunakan dua vektor pesanan. Akhirnya Kalimat kesamaan
diperoleh dengan menggabungkan kesamaan semantik dan ketertiban kesamaan.
Database
WordNet adalah kamus on-line
semantik - database leksikal, yang dikembangkan di Princeton oleh kelompok yang
dipimpin oleh Miller [26]. Versi yang digunakan dalam penelitian ini adalah
WordNet 1.6 yang memiliki 121.962 kata diselenggarakan di 99.642 sinonim set.
WordNet partisi leksikon ke kata benda, kata kerja, kata sifat, dan kata
keterangan. set ini kata-kata tersebut akan disusun dalam sinonim set, disebut
synsets. Sebuah synset merupakan konsep di mana semua kata memiliki yang sama berarti.
Jadi kata-kata dalam synset sebuah dipertukarkan dalam beberapa sintaks.
Pengetahuan dalam synset meliputi definisi kata-kata ini serta pointer ke synsets
terkait lainnya.
kelemahan:
1) Representasi
kalimat sangat tidak efisien. Dimensi vektor n sangat besar dibandingkan dengan
jumlah kata dalam kalimat, sehingga vektor yang dihasilkanakan memiliki banyak
komponen nol.
2) Kata
diatur dalam sistem IR biasanya mengecualikan kata-kata fungsi seperti yang,
dari, sebuah, dll Fungsi kata-kata yang tidak sangat membantu untuk menghitung
kesamaan dokumen, tetapi tidak dapat diabaikan untuk kalimat kesamaan karena mereka
membawa structural informasi, yang berguna dalam menafsirkan makna kalimat.
Jika kata-kata fungsi dimasukkan, nilai untuk n akan lebih besar masih.
Kesimpulan
Makalah ini disajikan sebuah
metode untuk mengukur kesamaan semantik antara kalimat atau teks yang sangat
singkat, berdasarkan informasi pesanan semantik dan kata. Pertama, semantic kesamaan
berasal dari basis pengetahuan leksikal dan korpus. Pengetahuan leksikal model
dasar umum pengetahuan manusia tentang kata-kata dalam bahasa alami, ini pengetahuan
biasanya stabil di berbagai area aplikasi bahasa. Sebuah corpus mencerminkan
penggunaan aktual bahasa dan kata-kata. Dengan demikian kesamaan semantik kami
tidak hanya menangkap pengetahuan manusia biasa, tetapi juga mampu beradaptasi
dengan daerah aplikasi menggunakan corpus khusus untuk aplikasi tersebut.
Kedua, metode yang diusulkan menganggap dampak urutan kata pada kalimat makna.
Kata berasal langkah-langkah urutan kesamaan jumlah kata yang berbeda serta
jumlah pasangan kata dalam urutan yang berbeda. Kesamaan Kalimat keseluruhan
kemudian didefinisikan sebagai kombinasi dari kesamaan semantic dan urutan kata
kesamaan. Mengingat pandangan bahwa urutan kata memainkan peran bawahan untuk
menafsirkan makna kalimat, kita berat urutan kata kesamaan kurang dalam
mendefinisikan kesamaan kalimat secara keseluruhan. Untuk mengevaluasi
algoritma kesamaan kami, kami mengumpulkan satu set
pasang kalimat dari berbagai
artikel dan buku dalam komputasi linguistik. Sebuah Percobaan awal pada data
ini menggambarkan bahwa metode yang diusulkan memberikan kesamaan langkah-langkah
yang cukup konsisten dengan pengetahuan manusia. Berikutnya kami membangun data
set 30 pasang kalimat menggunakan definisi kamus untuk masing-masing Rubenstein
dan Goodenough pasangan kata [35]. Kalimat-kalimat yang
dinilai oleh peserta manusia sebagai patokan untuk perbandingan dengan metode
kami yang dilakukan baik pada set data ini.