Tidak hanya berkiprah di bidang kesehatan, perkembangan AI yang diciptakan Google kini juga merambah ke bidang identifikasi tempat atau lokasi sebuah foto yang diambil di seluruh bagian planet. Dengan menggunakan jaringan neural dan kecerdasan buatan, Google memprogram mesin untuk bisa membandingkan sebuah foto dengan jutaan foto lain sehingga bisa disimpulkan di mana foto tersebut diambil.
Mesin baru yang dibuat Tobias Weyand, seorang spesialis computer vision di Google secara signifikan telah melebihi kemampuan manusia dan dapat menggunakan trik pintar untuk menentukan lokasi gambar dalam ruangan dan gambar dari hal-hal lain seperti binatang, makanan dan sebagainya yang tidak memiliki petunjuk lokasi.
Pendekatan mereka sangat sederhanya, setidaknya dalam dunia machine learning. Weyand dan timnya membagi dunia dalam petak-petak yang terdiri dari 26.000 kubik dengan ukuran yang bervariasi bergantung dengan jumlah gambar yang diambil di lokasi tersebut.
Jadi kota-kota besar yang memiliki banyak subjek gambar, mempunyai struktur jaringan yang lebih halus dibanding daerah terpencil di mana foto-foto biasanya jarang diambil. Memang, tim Google mengabaikan daerah-daerah seperti lautan dan kutub karena daerah ini jarang berubah atau tidak mempunyai ditail yang jelas.
Selanjutnya, tim menciptakan database gambar terlokasi dari web dan menggunakan data lokasi tersebut untuk menentukan kotak persegi mana yang diambil dari masing-masing gambar. Kumpulan data ini sangat besar yang terdiri dari 126 juta gambar bersamaan dengan data lokasi yang menyertainya.
Weyand dan timnya telah menggunakan 91 juta gambar-gambar tersebut untuk mengajarkan jaringan neural agar bisa menentukan lokasi petak hanya menggunakan gambar itu sendiri. Ide mereka adalah untuk memasukkan gambar ke jaringan ini dan mendapatkan output lokasi atau kemungkinan-kemungkinan lokasi yang mirip.
Mereka kemudian mengevaluasi jaringan neural tersebut menggunakan sisa 34 juta gambar yang lain di database. Akhirnya mereka menguji jaringan tersebut -yang mereka beri nama PlaNet- dengan berbagai cara untuk melihat seberapa baik ia bekerja.
Hasilnya cukup menarik. Untuk mengukur keakuratan mesin, mereka mengisikan 2.3 juta gambar -yang sudah diketahui lokasinya sebelumnya- dari Filckr untuk mengetahui apakah ia bisa menentukan lokasi dari gambar-gambar tersebut dengan benar. “PlaNet akhirnya mampu melokalisasi 3,6% gambar dengan tingkat akurat sampai ke posisi jalan dan 10,1% kekuratan kota” kata Weyand dan timnya. Selanjutnya mesin mengidentifikasi gambar berdasarkan negara sebanyak 28,4% dan benua sebanyak 48%.
Itu cukup bagus. Namun untuk menunjukkan seberapa baik mesin ini bekerja, Weyand dan tim melakukan ujicoba untuk melawan manusia. Mereka menggunakan game online yang menantang manusia memutuskan letak posisi dari gambar-gambar yang diambil dari Google Street View secara acak. Siapapun bisa memainkan game ini di www.geoguessr.com.
Tak perlu dikatakan, PlaNet bisa mengalahkan manusia. “Secara total, PlaNet memenangkan 28 dari 50 pertandingan dengan kesalahan lokalisasi median sekitar 1.131,7 km, sedangkan manusai mempunyai kesalahan rata-rata 2.320,75 km” kata Weyand dan timnya “Percobaan skala kecil ini menunjukkan bahwa PlaNet mencapai kinerja manusia super untuk kasus pemecahan lokalisasi Street View.”
Pertanyaan yang menarik adalah bagaimana PlaNet ini bisa bekerja dengan baik tanpa bisa menggunakan petunjuk-petunjuk yang biasa manusia lakukan, seperti tumbuh-tumbuhan, gaya arsitektur, dan sebagainya. Tapi Weyan dan timnya mengatakan mereka tahu kenapa: “Kami pikir PlaNet mempunyai keuntungan lebih daripada manusia karena telah melihat lebih banyak tempat daripada yang pernah dilihat dan dikunjungi oleh kebanyakan manusia dan telah belajar petunjuk-petunjuk yang sangat halus yang sulit dilakukan oleh manusia.
Mereka melangkah lebih jauh dan menggunakan mesin untuk menemukan gambar yang tidak memiliki petunjuk lokasi, seperti gambar yang diambil di dalam ruangan atau benda tertentu. Hal ini mungkin dilakukan karena sebuah gambar adalah bagian dari album yang semuanya telah diambil di tempat yang sama. Mesin hanya perlu melihat-lihat gambar yang lain di dalam album untuk memastikan dimana gambar tersebut diambil dan mengasumsikan gambar yang lebih spesifik diambil di tempat yang sama.
Ini adalah pencapaian yang mengesankan yang menunjukkan sekali lagi bahwa jaringan deep neural telah meningkatkan kekuatan otot mereka . Mungkin yang lebih mengesankan lagi adalah model ini hanya menggunakan memori yang lebih sedikit daripada pendekatan lain yang menggunakan bergiga-giga byte data. “Model kami hanya menggunakan 337MB, yang bahkan muat ke dalam memori smartphone,” ucap Weyand dan timnya.
Ide yang sangat menggiurkan, kekuatan jariangan saraf manusia super pada sebuah smartphone. Itu pasti tidak akan lama lagi!
Temukan smartphone-smartphone dengan kemampuan super, RAM 6GB dan masih banyak yang lain hanya di KliknKlik.com