Nvidia’nın robot köpeği yoga topu üstünde dengede kalabiliyor

DrEureka, tarafından üretilen robotlar harikalar yaratıyor.

Araştırmacılar, dört ayaklı bir robotu yoga topunun üzerinde dengede durabilmesi için sınırları zorladı. Nvidia’nın insan düzeyinde bir ödül tasarım algoritması olan Eureka bu deney için kullandı.

DrEureka, robotların simülasyonlardaki becerilerini eğitmek ve simülasyon-gerçeklik boşluğunun zorluklarını aşan çözümler geliştirmek için kod hazırlama konusunda uzmanlaşmış bir büyük dil modeli (LLM) aracısıdır.

Yapılan deney ile sistemin sorunsuz bir şekilde çalıştığı gözlemlendi. Bu ilk becerinin kazanılması ve gerçek hayata uygulanması süreci otomatikleştirdiği iddia ediliyor. Bu, sanal ortamlardan pratik dağıtıma sorunsuz bir geçiş sağlar.

Ekip, platformu robot köpeği simülasyonda eğitmek için kullandı ve ardından onu gerçek çalışma koşullarına aktardı. Dört ayaklı, görevi ilk denemede tamamladı. Yapılan çalışma GitHub üzerinden yayınlandı.

Simülasyondan gerçeğe

Araştırmacılar, gerçek dünya uygulamaları için simülasyonda edinilen politikalardan yararlanmanın, robot beceri edinimini artırmada önemli umut vaat ettiğinin altını çiziyor.

Bununla birlikte, simüle-gerçeğe yönelik metodolojiler genellikle manuel yapılandırmayı ve görev ödül fonksiyonlarının ve simülasyon fiziği parametrelerinin ayarlanmasını gerektirir. Bu da yavaş ilerlemeye yol açar ve önemli miktarda insan çabası gerektirir.

Nvidia’da kıdemli araştırmacısı; “Geleneksel olarak, simülasyondan gerçeğe aktarım, uzman insan robotistlerin her parametreye bakmasını ve elle ayarlamasını gerektiren sıkıcı bir süreç olan alan rastgeleleştirmesi ile gerçekleştirilir” dedi.

DrEureka, Eureka’yı başlatmak için ortam kaynak koduyla birlikte görev ve güvenlik talimatlarını alarak başlar. Eureka daha sonra standartlaştırılmış bir ödül fonksiyonu ve politikası üretir. Bunlar, ödüllere duyarlı bir fizik ön planı geliştirmek için çeşitli simülasyon koşullarında test edilir.

Bu daha sonra LLM tarafından bir dizi alan rastgeleleştirme (DR) parametresi oluşturmak için kullanılır. Son olarak, sentezlenmiş ödül ve DR parametrelerinden yararlanan DrEureka, politikaları gerçek dünyadaki uygulamaya hazır hale getirir.