Segmentasi dan Klasifikasi Objek Bergerak Real-Time dari Video Pengawasan Terkompresi HEVC

Oleh = Mochammad Haldi Widianto

MOVING segmentasi dan klasifikasi objek dari data video adalah salah satu tugas terpenting untuk pengawasan video cerdas. Kebanyakan metode computer vision untuk memindahkan deteksi dan klasifikasi objek mengasumsikan bahwa frame video asli tersedia dan mengekstrak deskripsi atau fitur dari domain piksel. Perhatikan bahwa sebagian besar konten video diterima atau disimpan dalam format terkompresi yang dikodekan dengan standar pengkodean video internasional, seperti MPEG-2, H.264 / AVC dan HEVC. Untuk mendapatkan frame video asli, kita harus melakukan decoding video. Dalam analisis video dalam skala besar, seperti analisis konten dan pencarian jaringan pengawasan yang besar, kerumitan dekode video menjadi hambatan utama sistem real-time. Untuk mengatasi masalah ini, pendekatan domain-kompresi telah dieksplorasi untuk analisis konten video yang mengekstrak fitur langsung dari sintaks aliran bit, seperti vektor gerak dan mode pengkodean blok. Keuntungan utama dari pendekatan domain-kompresi adalah kompleksitas komputasinya yang rendah karena dekode skala penuh dan rekonstruksi piksel dapat dihindari. Oleh karena itu, metode domain terkompresi diinginkan untuk aplikasi analisis video realtime. Dalam makalah ini, kami fokus pada deteksi dan klasifikasi objek bergerak dari video pengawasan terkompresi HEVC. Secara khusus, dengan mengekstraksi fitur dari bitstream video pengawasan terkompresi HEVC, objek bergerak ditempatkan dan diklasifikasikan, seperti orang atau kendaraan.

Baru-baru ini, sejumlah algoritma segmentasi dan klasifikasi objek bergerak yang menggunakan informasi vektor gerak (MV) dalam domain kompresi H.264 / AVC telah dilaporkan. memperkenalkan metode untuk mengumpulkan informasi MV dari waktu ke waktu untuk segmentasi objek bergerak. MV yang terakumulasi secara temporer selanjutnya diinterpolasi secara spasial untuk mendapatkan medan padat, dan prosedur maksimisasi ekspektasi kemudian diterapkan pada bidang gerak padat untuk segmentasi akhir. S. D. Bruyne dkk. [9] mengembangkan metode untuk menganalisis keandalan MV di domain H.264 / AVC. Informasi keandalan ini bersama dengan besaran MV digunakan untuk menyegmentasikan objek latar depan dari latar belakang. Dalam dan, MV diklasifikasikan ke dalam beberapa jenis, seperti latar belakang, tepi, latar depan, dan kebisingan. Kemudian, MV dan informasi kelas yang terkait digunakan untuk menyegmentasikan setiap blok. Dalam dan, gerakan global pertama-tama dihapus dari bidang vektor gerakan, dan proses segmentasi objek bergerak dilakukan pada bidang vektor gerakan kompensasi. mengembangkan metode untuk mengekstrak objek bergerak. Kerangka keseluruhan sistem kami diilustrasikan pada Gambar. 1. Terdiri dari dua tahap: segmentasi objek bergerak dan klasifikasi orang-kendaraan. Untuk segmentasi objek bergerak, pertama, interpolasi MV untuk unit prediksi intra-kode (PU) dan penghapusan pencilan MV digunakan untuk preprocessing. Kemudian, blok dengan vektor gerakan bukan nol dikelompokkan ke dalam wilayah latar depan yang terhubung dengan menggunakan algoritme pelabelan komponen konektivitas empat. Terakhir, pelacakan wilayah objek dengan konsistensi temporal diterapkan ke wilayah latar depan yang terhubung untuk menghilangkan wilayah kebisingan. Batasan daerah objek bergerak selanjutnya diperhalus dengan menggunakan satuan pengkodean (CU) dan ukuran PU balok

 

Untuk klasifikasi orang-kendaraan, ini melibatkan fase pelatihan untuk mempelajari model orang-kendaraan menggunakan “kantong kata-kata sintaksis HEVC spasiotemporal” dan fase pengujian untuk menerapkan model yang dipelajari untuk menguji video. Untuk tahap pengujian, pertama kita mengekstrak informasi spasial dan temporal dari setiap blok 4 × 4 untuk mendapatkan deskriptor fitur. Kemudian, deskriptor semua blok dikelompokkan menjadi beberapa kata sandi. Objek latar depan diwakili oleh histogram dari kata kode. Akhirnya, untuk objek bergerak tersegmentasi, kami menerapkan model kendaraan orang yang dipelajari untuk menentukan kategori mana yang akan ditetapkan. Sisa kertas ini disusun sebagai berikut. Klasifikasi objek domain terkompresi menggunakan kantong kata sintaks HEVC.

Dalam video terkompresi HEVC, satu MV dikaitkan dengan unit prediksi antar kode (PU). Vektor gerakan diskalakan dengan tepat agar tidak bergantung pada jenis bingkai. Ini dilakukan dengan membagi MV sesuai dengan perbedaan antara nomor bingkai yang sesuai dan nomor bingkai referensi (dalam urutan tampilan). Misalnya, satu MV memiliki nilai (4,4) untuk bingkai referensi -1 sementara MV lain di blok terdekat memiliki nilai (8,8) untuk bingkai referensi -2, kedua nilai MV ini akan dikoreksi menjadi keduanya (4, 4) setelah proses penskalaan. Untuk PU dengan dua vektor gerak, vektor gerak dengan panjang lebih besar akan dipilih sebagai vektor gerak representatif dari PU. Dalam proses preprocessing, interpolasi MV untuk blok intra-kode dan penghapusan MV outlier digunakan sebelum segmentasi dan klasifikasi objek bergerak..

Oleh karena itu, kita dapat menggunakan MV asli untuk mengurangi noise MV bukan nol ini untuk MV yang difilter. Menurut kekompakan spasial dan kontinuitas temporal dari MV, MV asli dari PU yang bertetangga dengan spasial dan PU yang terletak bersama secara temporal keduanya terlibat untuk membuat penilaian bersama. Ketika PU tetangga spasial dari PU saat ini keluar dari bingkai, MV asli dari PU itu akan disetel ke nol. Diagram alir pemurnian MV untuk MV bukan-nol yang difilter diilustrasikan pada Gbr. 4. Dalam Gbr.4, NumNonzeroMV menunjukkan jumlah MV bukan-nol dalam lingkungan spasial, di mana PU atas, PU bawah, PU kiri dan PU kanan dianggap. Pertama, jika NumNonzeroMV kurang dari 2, kami asumsikan kondisi kepadatan spasial tidak terpenuhi. Kedua, kami memeriksa apakah MV di PU temporal yang ditempatkan bersama dari bingkai sebelumnya dan bingkai berikutnya bukan nol atau tidak. Jika salah satu MV adalah nol, kami menganggap kondisi kontinuitas temporal tidak terpenuhi. Jika kondisi kekompakan spasial atau kondisi kontinuitas temporal tidak terpenuhi, MV yang difilter tanpa nol akan ditandai sebagai gerakan noise dan disetel ke nol.

Penghapusan MV Terisolasi dan Kecil

Untuk objek bergerak latar depan, biasanya ia memiliki wilayah MV bukan nol yang terhubung dan MV terfilter yang relatif lebih besar, sehingga PU dengan MV bukan nol yang terisolasi atau MV yang lebih kecil memiliki probabilitas tinggi untuk menjadi PU latar belakang. Oleh karena itu, kami mengusulkan untuk memberi label PU dengan MV bukan-nol yang terisolasi atau MV kecil sebagai PU latar belakang. Untuk lebih spesifik, kami mendefinisikan satu MV sebagai MV terisolasi ketika semua MV lingkungan spasialnya adalah MV nol. Selain itu, kami mendefinisikan satu MV sebagai MV kecil ketika MV PU saat ini dan lebih dari setengah PU tetangganya kurang dari atau sama dengan 1. Jika satu PU diidentifikasi sebagai PU dengan MV terisolasi atau kecil, terkait MV akan diubah menjadi nol

Untuk melatih model orang-kendaraan untuk klasifikasi objek bergerak, 4 urutan pelatihan digunakan, yang diilustrasikan di. Untuk mengevaluasi kinerja skema segmentasi dan klasifikasi objek bergerak yang kami usulkan dalam domain terkompresi HEVC, kami telah mengumpulkan 2 urutan dari CDNet2012 dataset (Highway dan Pejalan Kaki), 1 urutan dari urutan standar H.264 / AVC (Hall Monitor) dan 6 urutan dari dataset kami. 4 urutan pengujian memiliki lebih dari satu objek dalam satu frame, yaitu Highway, Seq_3, Seq_4, dan Seq_6. Selain itu, ada orang dan kendaraan yang hadir dalam satu bingkai di Seq_6. Contoh frame dari video uji. Resolusi dan jumlah frame untuk video pelatihan dan pengujian diilustrasikan pada Tabel II dan Tabel III. Video pelatihan dan pengujian dienkode menggunakan encoder HEVC HM v10.0, pada berbagai bitrate, dengan struktur GOP IBBBB, yaitu, frame pertama dikodekan sebagai intra (I), dan frame berikutnya dikodekan sebagai frame B umum. Fitur sintaks HEVC, seperti vektor gerakan, mode prediksi, ukuran CU, dan jenis PU, diekstrak dari bitstream terkompresi HEVC.

Dalam makalah ini, kami telah menyajikan pendekatan baru untuk mensegmentasi dan mengklasifikasikan objek bergerak dari video pengawasan terkompresi HEVC. Hanya vektor gerak dan mode pengkodean terkait dari aliran terkompresi yang digunakan dalam metode yang diusulkan. Dalam metode yang diusulkan, pertama, interpolasi MV untuk pemindahan intra-kode PU dan MV outlier digunakan untuk preprocessing. Kedua, blok dengan vektor gerakan bukan nol dikelompokkan ke dalam wilayah latar depan yang terhubung dengan algoritme pelabelan komponen konektivitas empat. Ketiga, pelacakan wilayah objek berdasarkan konsistensi temporal diterapkan ke wilayah latar depan yang terhubung untuk menghilangkan wilayah kebisingan. Batasan wilayah objek bergerak selanjutnya diperhalus oleh ukuran unit pengkodean dan ukuran unit prediksi. Terakhir, model klasifikasi kendaraan pribadi menggunakan kantong kata-kata sintaksis spasial-temporal HEVC dilatih untuk mengklasifikasikan objek bergerak, baik orang maupun kendaraan.

 

Referensi :

  1. Liang Zhao, Zhihai He, Fellow, IEEE, Wenming Cao, and Debin Zhao, Member, IEEE, “Real-Time Moving Object Segmentation and Classification from HEVC Compressed Surveillance Video” China, 2017