6 Juni 2026

Model Vision-Language: Memahami Ruang dan Perspektif Digital

Model Vision-Language: Memahami Ruang dan Perspektif Digital

Foto: NVIDIA

Jakarta, mahkota-news.com – Penelitian terbaru dari Italian Institute of Technology (IIT) dan University of Aberdeen memperkenalkan kerangka konseptual baru serta dataset sintetis yang bertujuan melatih model vision-language (VLM) dalam tugas penalaran spasial.

Model vision-language adalah teknologi kecerdasan buatan yang mampu memproses gambar dan teks secara bersamaan untuk membuat prediksi, dan pengembangan kemampuan spasial.

Dimana diharapkan dapat meningkatkan kecerdasan buatan yang terwujud secara fisik (embodied AI) dalam memahami lingkungan dan berinteraksi dengan manusia secara lebih efektif.

Baca Juga: Perbandingan Robot Anjing Militer AS vs China

Penalaran Spasial dalam Interaksi Robot dan Manusia

Menurut Davide De Tommaso, teknolog dari IIT dan salah satu penulis makalah penelitian, penelitian ini berfokus pada bagaimana mekanisme kognisi sosial manusia dapat diterapkan dalam interaksi dengan agen buatan seperti robot.

“Studi kami menunjukkan bahwa manusia cenderung memberikan intensionalitas pada robot dan berinteraksi dengan mereka layaknya dengan mitra sosial lain,” ujarnya.

Oleh karena itu, memahami isyarat nonverbal seperti pandangan mata, gestur, dan perilaku spasial menjadi kunci dalam mengembangkan model kognisi sosial yang efektif pada robot.

Kemampuan Visual Perspective Taking (VPT), yaitu kemampuan memahami bagaimana suatu pemandangan terlihat dari sudut pandang orang lain, menjadi aspek penting bagi robot agar dapat menafsirkan instruksi, bekerjasama dengan agen lain, dan menyelesaikan tugas secara efektif.

De Tommaso menegaskan, “Robot harus mampu menilai apakah teks dapat dibaca dari sudut pandang orang lain, apakah objek tersembunyi di balik penghalang, dan apakah objek sudah dalam posisi yang tepat untuk diambil atau ditunjuk.”

Baca Juga: Saat Robot Bersenjata AI Bisa Membuat Perang

Dataset Sintetis dan Dunia Buatan untuk Melatih Model

Untuk meningkatkan kemampuan VPT pada VLM, para peneliti menggunakan NVIDIA Omniverse Replicator untuk menciptakan dunia buatan yang berisi adegan sederhana berupa kubus yang dilihat dari berbagai sudut dan jarak.

Setiap gambar 3D dari kubus tersebut dilengkapi dengan deskripsi bahasa alami dan matriks transformasi 4×4 yang merepresentasikan posisi dan orientasi objek.

Dataset ini dipublikasikan secara online untuk digunakan oleh peneliti lain dalam melatih model mereka1.

Joel Currie, mahasiswa Ph.D. di University of Aberdeen menjelaskan, “Karena lingkungan ini sintetis, kami dapat mengontrol setiap aspek dan menghasilkan puluhan ribu pasangan gambar dan matriks dengan cepat, sesuatu yang hampir tidak mungkin dilakukan di dunia nyata. Ini adalah cara mengajarkan robot untuk tidak hanya melihat, tetapi memahami ruang seperti makhluk fisik.”

Implikasi dan Potensi Pengembangan di Masa Depan

Meskipun saat ini kerangka kerja ini masih bersifat teoretis, para peneliti berencana untuk menguji potensinya dengan melatih model menggunakan dataset tersebut atau data sintetis serupa.

Currie menambahkan, “Kami mengusulkan cara baru bagi AI untuk belajar memahami ruang, bukan hanya dari sudut pandangnya sendiri, tetapi juga dari sudut pandang orang lain. Ini merupakan langkah menuju kognisi terwujud robot yang tidak hanya melihat dunia, tetapi dapat membayangkan bagaimana dunia itu terlihat bagi orang lain. Kami melihat ini sebagai fondasi kecerdasan sosial sejati pada mesin.”

Gioele Migno, peneliti S4HRI di IIT, menegaskan pentingnya meningkatkan realisme lingkungan virtual agar pengetahuan yang diperoleh model dapat diterapkan di dunia nyata.

“Langkah ini krusial untuk mentransfer kemampuan penalaran spasial dari simulasi ke robot nyata, sehingga interaksi dengan manusia menjadi lebih efektif dalam konteks pemahaman spasial bersama.” ujarnya.

Baca Juga: Hyundai dan Atlas: Robot Humanoid Siap Masuk Pabrik

Kontribusi Penelitian terhadap Pengembangan AI Berwujud

Pengembangan kemampuan penalaran spasial pada model vision-language merupakan terobosan penting dalam evolusi AI berwujud.

Kemampuan ini memungkinkan robot dan agen AI untuk beroperasi secara lebih mandiri dan adaptif dalam lingkungan nyata, yang selama ini menjadi tantangan utama dalam penerapan AI di bidang robotika dan interaksi manusia-mesin.

Data tahun 2025 menunjukkan peningkatan signifikan dalam investasi dan riset AI yang berfokus pada aspek embodied cognition dan interaksi sosial, dengan pertumbuhan tahunan mencapai 30-40% di berbagai negara maju.

Penelitian seperti yang dilakukan IIT dan University of Aberdeen menjadi contoh nyata bagaimana kolaborasi internasional dapat mempercepat kemajuan teknologi ini.

Kerangka kerja dan dataset yang dikembangkan oleh tim peneliti ini membuka jalan baru dalam pelatihan model vision-language dengan kemampuan penalaran spasial yang lebih manusiawi.

Dengan kemampuan memahami perspektif visual orang lain, AI berwujud dapat berinteraksi lebih natural dan efektif dengan manusia, memperluas aplikasi robotika di berbagai sektor mulai dari layanan pelanggan hingga operasi industri.

Langkah selanjutnya adalah meningkatkan realisme dunia buatan yang digunakan untuk pelatihan agar model dapat lebih mudah ditransfer ke lingkungan nyata.

Inovasi ini menjadi fondasi penting bagi pengembangan kecerdasan sosial pada mesin, yang diyakini akan menjadi pilar utama dalam revolusi teknologi AI di masa depan.

Baca Juga: China Tidak Mengejar AI Terpintar, Namun Negara yang Memakai AI Setiap Hari