Klasifikasi adegan video dengan algoritme latar belakang yang kompleks berdasarkan CNN yang ditingkatkan
Oleh = Mochammad Haldi Widianto
Karena rumitnya lingkungan tambang batubara bawah tanah, informasi yang diekspresikan dalam kumpulan gambar video sulit digunakan, sehingga sulit untuk melakukan analisis mendalam terhadap pemantauan manual dan pengelolaan data video. Klasifikasi pemandangan adalah untuk manajemen video yang efisien. Namun, penelitian tentang klasifikasi video dengan latar belakang yang kompleks saat ini masih sedikit. Oleh karena itu, penelitian tentang masalah ini sangat penting. Dengan pesatnya perkembangan teknologi pemrosesan gambar, klasifikasi pemandangan gambar telah menjadi topik hangat. Teknologi klasifikasi pemandangan mencakup dua bagian penting: ekstraksi fitur dan klasifikasi. Algoritma ekstraksi fitur adalah kunci untuk mempengaruhi akurasi klasifikasi. Pembelajaran mendalam adalah cabang kecerdasan buatan yang paling menjanjikan, dan Convolution Neural Network (CNNs) adalah metode pembelajaran mendalam yang paling banyak digunakan dalam klasifikasi adegan. Dibandingkan dengan algoritme klasifikasi tradisional, ekstraksi fitur dan klasifikasi mengombinasikan pengoptimalan umpan balik dalam struktur jaringan neural membuatnya dapat mempelajari fitur yang lebih canggih dan lebih efisien. Dalam studi ini mengambil video tambang batubara sebagai contoh, makalah ini mengusulkan metode klasifikasi scene video kompleks berdasarkan CNNs. Dengan menyesuaikan kembali struktur bingkai CNN gabungan, model klasifikasi pemandangan dilatih dengan menggunakan video tambang batubara. Model ini mengekstrak fitur dan klasifikasi untuk adegan video yang kompleks. Adegan frekuensi duplikat diklasifikasikan.
Pengenalan pembelajaran mendalam memecahkan batasan algoritma tradisional. Pada tahun 2012, model AlexNet yang diusulkan oleh Alex Krizhevsky sangat penting untuk memecahkan masalah klasifikasi gambar skala besar. Ini menggunakan fungsi aktivasi ULT untuk menggantikan fungsi aktivasi sigmoid dan tanh, dan memecahkan masalah pemasangan berlebih melalui Putus sekolah. Model yang dilatih oleh model memiliki invariansi terjemahan lokal dan invariansi iluminasi. Pada 2016, Tang Hao, he Chu mengusulkan gabungan jaringan konvolusi penuh
dengan algoritme jaringan saraf berulang bidang acak bersyarat yang ditingkatkan untuk klasifikasi pemandangan gambar SAR, yang meningkatkan detail gambar dengan baik, tetapi dapat menyebabkan masalah tepi kabur. Pada tahun yang sama, He Xiaofei, Zou Zheng Rong dan lainnya mengusulkan algoritma klasifikasi joint saliency dan multi-layer convolution neural network untuk mengklasifikasikan citra dengan skor tinggi. Algoritme dapat mengungkapkan informasi pemandangan dengan lebih baik, tetapi efek klasifikasi dari perbedaan halus tidak baik. Pada tahun 2017, Zhang Huina, Li Yumei dan lainnya mengusulkan algoritma klasifikasi citra pemandangan alam berdasarkan model Haar-CNN, yang dapat mengekstraksi informasi spasial dan tekstur yang lebih melimpah, tetapi ruang warna memiliki pengaruh yang besar terhadap akurasi klasifikasi. Pada tahun 2018, Zhang Xiaoming dan Yin Hongfeng mengusulkan metode penggunaan jaringan saraf konvolusi dan informasi semantik untuk mengklasifikasikan pemandangan secara bersamaan. Model pelatihan sampel yang diperlukan dalam algoritme ini kecil dan mudah diterapkan, tetapi ada masalah ketahanan yang buruk. Dalam pekerjaan ini, kami mengusulkan algoritma klasifikasi adegan untuk video tambang batubara dengan latar belakang yang kompleks. Algoritme ini didasarkan pada CNN yang ditingkatkan. Berdasarkan model AlexNet dalam literatur, kami menata ulang strukturnya dan mendapatkan semacam algoritma klasifikasi video tambang yang sesuai untuk background yang kompleks.
Untuk mengklasifikasikan gambar video tambang dengan latar belakang yang kompleks, struktur model CNN direstrukturisasi. Seluruh struktur jaringan model terdiri dari 10 lapisan neuron, termasuk 7 lapisan melingkar, 5 lapisan kolam, 3 lapisan koneksi penuh, dan pengklasifikasi Softmax, yang digunakan untuk klasifikasi adegan video tambang. Desain struktural CNN ditunjukkan pada Gambar 1. Pertama, menurut (1), pemrosesan gambar video tambang yang dinormalisasi dapat mempercepat pelatihan jaringan pelatihan. Gambar 3 saluran dari 224 * 224 piksel diperoleh sebagai lapisan masukan CNN
Untuk memverifikasi keefektifan algoritme, gambar bingkai kunci dari video bawah tanah tambang batubara digunakan untuk eksperimen dan analisis. Sebanyak 1840 gambar percobaan, semua gambar berasal dari video yang dikumpulkan oleh monitor tambang. Karena panjang video yang diperoleh berbeda, jumlah gambar key frame tidak sama, Untuk memfasilitasi pelatihan dan pengujian, setiap set gambar dibagi menjadi dua bagian, set pelatihan dan set validasi sesuai dengan rasio 8 2 , iterasi adalah 6 epoch, setiap epoch mewakili semua gambar sekali, berisi beberapa iterasi, dan setiap iterasi menangani 64 gambar. Kurva akurasi dan kurva kehilangan model diperoleh melalui eksperimen, seperti yang ditunjukkan pada Gambar. 2 dan Gambar. 3. Dalam hal ini kertas, kami menggunakan tingkat akurasi, tingkat presisi dan tingkat verifikasi sebagai indikator evaluasi untuk mengevaluasi secara objektif setiap algoritma klasifikasi.
Hasil dari algoritma yang diusulkan dalam makalah ini ditunjukkan pada Gambar 4. Seperti yang ditunjukkan pada gambar, dua baris pertama hasil deteksi dalam makalah ini adalah running time, kemudian bingkai kunci video dan hasil pengenalan ditampilkan, dan skor tertinggi dari bingkai kunci dalam klasifikasi yang berbeda adalah keluaran dan semua nilai fitur. adalah keluaran, dan akurasi, presisi, dan perolehan keluaran akhir masing-masing adalah. Kemudian, melalui akurasi, presisi dan recall klasifikasi adegan video tambang, makalah ini membandingkan algoritma SURF + KNN tradisional, algoritma SIFT + K-means dan algoritma CNN klasik AlexNet dari literatur dan model CNN yang ditingkatkan yang diusulkan dalam hal ini. kertas. Hasil percobaan kontras ditunjukkan di.
Mengambil video tambang batubara sebagai contoh, makalah ini mengusulkan algoritma klasifikasi berbasis CNN yang lebih baik untuk adegan video tambang. Setelah input bingkai kunci, bingkai kunci ekstraksi jaringan saraf konvolusi dan langkah-langkah klasifikasi fungsi Softmax, masalah klasifikasi video yang kompleks dapat diselesaikan secara efektif. Dengan membandingkan algoritme klasifikasi tradisional dan algoritme CNN klasik, percobaan pada kumpulan data gambar video tambang batubara menunjukkan bahwa algoritme tersebut memiliki akurasi, presisi, dan recall yang tinggi dalam klasifikasi adegan video tambang di latar belakang yang kompleks, dan dapat lebih baik untuk gambar video tambang dengan latar belakang yang kompleks. Klasifikasi Adegan Ranjau. Berdasarkan pembelajaran mendalam telah memecahkan keterbatasan algoritma dangkal tradisional sampai batas tertentu. Namun pembelajaran mendalam membutuhkan data yang sangat besar untuk didukung, sehingga pekerjaan di masa mendatang dapat meningkatkan jumlah data dan melatih data dalam kerangka pembelajaran mendalam yang lebih kompleks untuk mencapai hasil klasifikasi yang lebih efektif
Referensi :
Ou Ye, Yao Li, Guimin Li, Zhanli Li,Tong Gao, Tian Ma, “Video scene classification with complex background algorithm based on improved CNNs,” School of Computer Science and Technology Xi’an University of Science and Technology
Comments :