"Difficult Roads Often Lead to Beautiful Destionations"

Wednesday, January 16, 2019

/


Kesamaan Kalimat Berdasarkan Jaring Semantik dan Statistik Corpus






TUGAS SOFTSKILL JURNAL

KELOMPOK 18

Aqil Darisi                  (50416999)
Luthfriandi                  (54416151)
Rachmat Andy            (55416905)


Abstrak
langkah-langkah kesamaan kalimat memainkan peran yang semakin penting dalam text penelitian terkait dan aplikasi di berbagai bidang seperti pertambangan teks, pengambilan halaman web dan sistem dialog. metode yang ada untuk komputasi kalimat kesamaan telah diadopsi dari pendekatan yang digunakan untuk dokumen teks yang panjang. Metode-metode ini proses kalimat dalam ruang dimensi yang sangat tinggi dan akibatnya tidak efisien, membutuhkan input manusia dan tidak beradaptasi dengan beberapa domain aplikasi. Makalah ini berfokuslangsung pada komputasi kesamaan antara teks-teks yang sangat singkat panjang kalimat. Saya menyajikan suatu algoritma yang memperhitungkan informasi semantik dan urutan kata informasi tersirat dalam kalimat. Kesamaan semantik dari dua kalimat adalah dihitung dengan menggunakan informasi dari database leksikal terstruktur dan dari corpus statistik. Penggunaan database leksikal memungkinkan metode kami untuk model yang umum manusia akal pengetahuan dan penggabungan statistik corpus memungkinkan metode kami untuk menjadi beradaptasi dengan domain yang berbeda. Metode yang diusulkan dapat digunakan dalam berbagai aplikasi yang melibatkan teks pengetahuan representasi dan penemuan. percobaan pada dua set pasang kalimat yang dipilih menunjukkan bahwa metode yang diusulkan memberikan kesamaan ukuran yang menunjukkan korelasi yang signifikan untuk intuisi manusia.

Pengantar
aplikasi terbaru dari pengolahan bahasa alami menyajikan kebutuhan untuk efektif metode untuk menghitung kesamaan antara teks yang sangat singkat atau kalimat [25]. Sebuah Contoh dari ini adalah agen / sistem dialog percakapan dengan strategi naskah [1] di yang kalimat kesamaan penting untuk pelaksanaannya. Kerja dengan Kalimat kesamaan secara signifikan dapat menyederhanakan agen "s basis pengetahuan dengan menggunakan kalimat alami daripada pola struktural kalimat. Kalimat kesamaan akan memiliki aplikasi terkait internet juga. Dalam halaman pencarian web, kalimat kesamaan memiliki terbukti menjadi salah satu teknik terbaik untuk meningkatkan efektivitas pengambilan, di mana judul digunakan untuk mewakili dokumen dalam nama halaman temuan tugas [29]. dalam gambar pengambilan dari web, penggunaan teks singkat seputar gambar dapat mencapai yang lebih tinggi pengambilan presisi dari penggunaan seluruh dokumen yang gambar tertanam [8]. Dalam pertambangan teks, kalimat kesamaan digunakan sebagai kriteria untuk menemukan tak terlihat pengetahuan dari database tekstual [2]. Selain itu, penggabungan pendek-teks kesamaan bermanfaat untuk aplikasi seperti summarization teks [9], teks kategorisasi [15] dan mesin terjemahan [21]. Aplikasi ini contoh menunjukkan bahwa komputasi kalimat kesamaan telah menjadi komponen generik untuk penelitian masyarakat yang terlibat dalam representasi pengetahuan yang berhubungan dengan teks dan penemuan. Secara tradisional, teknik untuk mendeteksi kesamaan antara teks panjang (dokumen) telah berpusat pada analisis kata bersama [36].

Pekerjaan yang berhubungan
Secara umum, ada literatur yang luas pada pengukuran kesamaan antara dokumen atau teks panjang [1], [12], [17], [24], tetapi ada sangat sedikit publikasi yang berkaitan dengan pengukuran kesamaan antara teks yang sangat singkat [10] atau kalimat. Bagian ini ulasan beberapa pekerjaan terkait untuk mengeksplorasi kekuatan dan keterbatasan sebelumnya metode, dan untuk mengidentifikasi kesulitan tertentu dalam komputasi kalimat kesamaan. karya terkait secara kasar dapat diklasifikasikan ke dalam tiga kategori utama: kata co-terjadinya metode, metode berbasis corpus, metode berbasis fitur deskriptif. Metode kata co-kejadian yang sering dikenal sebagai “kantong kata" metode. Hal ini umumnya digunakan dalam Information Retrieval (IR) sistem [24]. Sistem memiliki pre-compiled daftar kata dengan n kata-kata. Nilai dari n umumnya dalam ribuan atau ratusan ribu untuk mencakup semua kata-kata yang bermakna dalam bahasa alami. Setiap dokumen yang diwakili menggunakan kata-kata ini sebagai vektor di n dimensi ruang. SEBUAH permintaan juga dianggap sebagai dokumen. Dokumen yang relevan kemudian diambil berdasarkan kesamaan antara vektor query dan vektor dokumen. Ini teknik bergantung pada asumsi bahwa dokumen lebih mirip berbagi lebih sama kata-kata. Jika teknik ini diterapkan untuk kalimat kesamaan, itu akan memiliki tiga jelas 

Metode yang digunakan
Metode yang diusulkan berasal kesamaan teks dari informasi semantik dan sintaksis terkandung dalam teks-teks dibandingkan. Sebuah teks dianggap urutan kata-kata masing-masing yang membawa informasi yang berguna. Kata-kata bersama dengan struktur kombinasi mereka membuat teks menyampaikan makna tertentu. Teks dipertimbangkan dalam makalah ini diasumsikan panjang kalimat. Gambar 1 menunjukkan prosedur untuk menghitung kesamaan antara dua kalimat kalimat kandidat. Tidak seperti metode yang sudah ada yang menggunakan satu set tetap kosa kata, yang Metode yang diusulkan secara dinamis membentuk kata patungan didirikan hanya menggunakan semua kata yang berbeda dalam pasangan kalimat. Untuk setiap kalimat, vektor semantik baku berasal dengan bantuan dari database leksikal. Sebuah vektor urutan kata dibentuk untuk setiap kalimat, lagi menggunakan informasi dari database leksikal. Karena setiap kata dalam memberikan kontribusi kalimat berbeda dengan makna seluruh kalimat, arti dari sebuah kata tertimbang dengan menggunakan konten informasi yang diperoleh dari corpus a. Dengan menggabungkan semantik baku  vektor dengan konten informasi dari korpus, vektor semantik diperoleh untuk setiapdari dua kalimat. kesamaan semantik dihitung berdasarkan dua semantic vektor. Kesamaan rangka dihitung dengan menggunakan dua vektor pesanan. Akhirnya Kalimat kesamaan diperoleh dengan menggabungkan kesamaan semantik dan ketertiban kesamaan.

Database
WordNet adalah kamus on-line semantik - database leksikal, yang dikembangkan di Princeton oleh kelompok yang dipimpin oleh Miller [26]. Versi yang digunakan dalam penelitian ini adalah WordNet 1.6 yang memiliki 121.962 kata diselenggarakan di 99.642 sinonim set. WordNet partisi leksikon ke kata benda, kata kerja, kata sifat, dan kata keterangan. set ini kata-kata tersebut akan disusun dalam sinonim set, disebut synsets. Sebuah synset merupakan konsep di mana semua kata memiliki yang sama berarti. Jadi kata-kata dalam synset sebuah dipertukarkan dalam beberapa sintaks. Pengetahuan dalam synset meliputi definisi kata-kata ini serta pointer ke synsets terkait lainnya.

kelemahan:

1) Representasi kalimat sangat tidak efisien. Dimensi vektor n sangat besar dibandingkan dengan jumlah kata dalam kalimat, sehingga vektor yang dihasilkanakan memiliki banyak komponen nol.
2) Kata diatur dalam sistem IR biasanya mengecualikan kata-kata fungsi seperti yang, dari, sebuah, dll Fungsi kata-kata yang tidak sangat membantu untuk menghitung kesamaan dokumen, tetapi tidak dapat diabaikan untuk kalimat kesamaan karena mereka membawa structural informasi, yang berguna dalam menafsirkan makna kalimat. Jika kata-kata fungsi dimasukkan, nilai untuk n akan lebih besar masih.
Kesimpulan

Makalah ini disajikan sebuah metode untuk mengukur kesamaan semantik antara kalimat atau teks yang sangat singkat, berdasarkan informasi pesanan semantik dan kata. Pertama, semantic kesamaan berasal dari basis pengetahuan leksikal dan korpus. Pengetahuan leksikal model dasar umum pengetahuan manusia tentang kata-kata dalam bahasa alami, ini pengetahuan biasanya stabil di berbagai area aplikasi bahasa. Sebuah corpus mencerminkan penggunaan aktual bahasa dan kata-kata. Dengan demikian kesamaan semantik kami tidak hanya menangkap pengetahuan manusia biasa, tetapi juga mampu beradaptasi dengan daerah aplikasi menggunakan corpus khusus untuk aplikasi tersebut. Kedua, metode yang diusulkan menganggap dampak urutan kata pada kalimat makna. Kata berasal langkah-langkah urutan kesamaan jumlah kata yang berbeda serta jumlah pasangan kata dalam urutan yang berbeda. Kesamaan Kalimat keseluruhan kemudian didefinisikan sebagai kombinasi dari kesamaan semantic dan urutan kata kesamaan. Mengingat pandangan bahwa urutan kata memainkan peran bawahan untuk menafsirkan makna kalimat, kita berat urutan kata kesamaan kurang dalam mendefinisikan kesamaan kalimat secara keseluruhan. Untuk mengevaluasi algoritma kesamaan kami, kami mengumpulkan satu set

pasang kalimat dari berbagai artikel dan buku dalam komputasi linguistik. Sebuah Percobaan awal pada data ini menggambarkan bahwa metode yang diusulkan memberikan kesamaan langkah-langkah yang cukup konsisten dengan pengetahuan manusia. Berikutnya kami membangun data set 30 pasang kalimat menggunakan definisi kamus untuk masing-masing Rubenstein dan Goodenough pasangan kata [35]. Kalimat-kalimat yang dinilai oleh peserta manusia sebagai patokan untuk perbandingan dengan metode kami yang dilakukan baik pada set data ini.




0 comments:

Post a Comment