PembentukanPendidikan menengah dan sekolah

Cara jiran terdekat: contoh kerja

Cara jiran terdekat adalah pengelas metrik yang paling mudah yang berdasarkan penilaian persamaan objek yang berbeza.

objek dianalisis tergolong dalam kelas yang mereka milik subjek sampel latihan. Marilah kita mengetahui yang merupakan jiran yang terdekat. Cuba untuk memahami perkara itu rumit, contoh-contoh teknik yang berbeza.

Cara hipotesis

Cara jiran terdekat boleh dianggap sebagai algoritma yang paling biasa digunakan untuk pengelasan. Objek menjalani diklasifikasikan tergolong dalam y_i kelas, ke mana objek yang paling dekat pembelajaran sampel x_i.

Kekhususan kaedah jiran terdekat

k Cara jiran terdekat boleh meningkatkan ketepatan pengelasan. objek dianalisis tergolong dalam kelas yang sama dengan sebahagian besar negara-negara jiran, iaitu, k dekat kepadanya objek sampel x_i yang dianalisis. Dalam menyelesaikan masalah dengan dua kelas bilangan jiran akan menjadi ganjil untuk mengelakkan keadaan kekaburan, jika jumlah yang sama jiran akan tergolong dalam kelas yang berlainan.

Teknik jiran digantung

Cara Postgresql-dianalisis tsvector jiran terdekat digunakan apabila bilangan kelas sekurang-kurangnya tiga, dan anda tidak boleh menggunakan nombor ganjil. Tetapi kesamaran timbul walaupun dalam kes-kes ini. Kemudian, jiran i-ke-mendapat berat badan w_i, yang mengurangkan dengan pangkat jiran i. Ia merujuk kepada kelas objek, yang akan mempunyai jumlah berat maksimum di kalangan negara berjiran.

Hipotesis kompak

Di tengah-tengah semua kaedah di atas adalah hipotesis kompak. Ia menunjukkan hubungan antara ukuran persamaan objek dan milik mereka kepada kelas yang sama. Dalam keadaan ini, sempadan antara pelbagai jenis adalah bentuk yang mudah, dan buat kelas objek dalam ruang kawasan mudah alih padat. Di bawah bidang seperti dalam analisis matematik diambil untuk bermakna satu set terbatas ditutup. hipotesis ini tidak berkaitan dengan persepsi sehari-hari dengan perkataan.

Formula asas

Mari kita kaji lebih jiran terdekat. Jika cadangan latihan sampel jenis "objek-balas» X ^ m = \ {(x_1, y_1), \ titik, (x_m, y_m) \}; jika kejamakan objek untuk menentukan jarak fungsi \ rho (x, x '), yang diwakili dalam bentuk persamaan model mencukupi objek dengan meningkatkan nilai fungsi berkurangan persamaan antara objek x, x'.

Bagi apa-apa objek, u akan membina sampel latihan objek x_i dengan peningkatan jarak kepada u:

\ Rho (u, x_ {1; u}) \ Leq \ rho (u, x_ {2; u}) \ Leq \ cdots \ Leq \ rho (u, x_ {m; u}),

mana x_ {i; u} menyifatkan sampel pembelajaran objek, iaitu i-ke-sumber jiran objek u. notasi dan penggunaan tersebut untuk memberikan jawapan kepada jiran i-ke: y_ {i; u}. Hasilnya, kita dapati bahawa apa-apa objek u menimbulkan menomborkan semula sampel sendiri.

Penentuan k jumlah jiran

Cara jiran terdekat apabila k = 1 dapat memberikan pengelasan salah, bukan sahaja pada objek-pelepasan, tetapi juga untuk kelas-kelas lain yang berhampiran.

Jika kita mengambil k = m, algoritma akan menjadi stabil dan akan berubah menjadi nilai yang tetap. Itulah sebabnya kebolehpercayaan adalah penting untuk mengelakkan indeks melampau k.

Dalam amalan, kriteria sebagai indeks k optimum digunakan gelongsor kawalan.

saringan pelepasan

Objek kajian sebahagian besarnya tidak sama rata, tetapi di antara mereka ada orang-orang yang mempunyai ciri-ciri kelas dan dirujuk sebagai piawaian. Pada jarak tertakluk kepada model yang sesuai untuk kebarangkalian yang tinggi yang dimiliki oleh kelas ini.

Bagaimana rezultativen kaedah jiran terdekat? Contoh boleh dilihat berdasarkan kategori periferal dan bukan maklumat objek. Ia diandaikan persekitaran padat objek wakil-wakil lain kelas ini. Apabila anda mengeluarkan mereka dari klasifikasi pensampelan kualiti tidak akan menderita.

Masuk ke dalam sebilangan sampel boleh pecah bunyi yang "atas alasan" kelas. Menghapuskan kesan ketara positif kepada kualiti klasifikasi.

Jika sampel yang diambil daripada objek bunyi tidak bermaklumat dan menghapuskan, anda boleh bergantung kepada beberapa keputusan positif pada masa yang sama.

Pertama kaedah interpolasi diklasifikasikan jiran terdekat membolehkan untuk meningkatkan kualiti, mengurangkan jumlah data yang disimpan, mengurangkan masa klasifikasi, yang dibelanjakan untuk pilihan piawaian yang akan datang.

Penggunaan sampel ultra-besar

Cara jiran terdekat adalah berdasarkan kepada penyimpanan sebenar objek pembelajaran. Untuk membuat sangat sampel berskala besar menggunakan masalah teknikal. Tujuannya bukan sahaja untuk menyelamatkan sejumlah besar maklumat, tetapi juga dalam jumlah minimum masa untuk mempunyai masa untuk mencari apa-apa objek u k kalangan jiran terdekat.

Untuk menghadapi tugas ini, dua kaedah digunakan:

  • sampel menipis melalui objek pelepasan bukan data;
  • keberkesanan penggunaan struktur data khas dan kod untuk carian segera jiran terdekat.

Kaedah-kaedah kaedah pemilihan

Klasifikasi di atas telah dipertimbangkan. Cara jiran terdekat digunakan dalam menyelesaikan masalah praktikal, yang dikenali terlebih dahulu jarak fungsi \ rho (x, x '). Dalam objek menerangkan vektor angka menggunakan metrik Euclid. Pilihan ini tidak mempunyai justifikasi khas, tetapi membabitkan pengukuran semua tanda-tanda "dalam skala yang sama." Jika faktor ini tidak diambil kira, maka metrik yang akan menguasai ciri mempunyai nilai angka tertinggi.

Jika terdapat sejumlah besar ciri-ciri, mengira jarak sebagai jumlah sisihan kepada gejala-gejala tertentu muncul serius dimensi masalah.

Dalam ruang dimensi yang tinggi yang jauh dari satu akan lain semua objek. Akhirnya, apa-apa sampel akan bersebelahan objek yang dikaji k jiran. dipilih sebilangan kecil ciri-ciri maklumat untuk menghapuskan masalah ini. Algoritma untuk mengira anggaran membina atas dasar set tanda-tanda, dan untuk setiap individu membina fungsi berdekatan mereka.

kesimpulan

pengiraan matematik sering melibatkan penggunaan pelbagai teknik yang mempunyai sendiri ciri-ciri tersendiri, kebaikan dan keburukan mereka. Dilihat kaedah jiran terdekat boleh menyelesaikan agak masalah yang serius, kerana ciri-ciri objek matematik. Konsep eksperimen, berdasarkan kaedah yang dianalisis sedang giat digunakan dalam kecerdasan buatan.

Dalam sistem pakar adalah perlu bukan sahaja untuk mengelaskan objek, tetapi juga menunjukkan pengguna penjelasan klasifikasi yang berkenaan. Dalam kaedah ini, penjelasan fenomena ini dinyatakan berhubung dengan objek daripada kelas tertentu dan juga lokasi berbanding dengan sampel yang digunakan. pakar industri undang-undang, ahli geologi, doktor, mengambil ini "precedent" logik aktif menggunakannya dalam penyelidikan mereka.

Dalam usaha untuk dianalisis kaedah adalah yang paling boleh dipercayai, cekap, memberikan keputusan yang dikehendaki, anda mesti mengambil angka k minimum, di samping mengelakkan pelepasan antara objek dianalisis. Itulah sebabnya penggunaan standard dan kaedah pemilihan, serta metrik pengoptimuman.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ms.atomiyme.com. Theme powered by WordPress.