İTÜ Annotated Desktop Objects from Real and Synthetic Worlds

Hakkımızda

Annotated Desktop Objects Real and Ersatz Images Dataset: ADORESet
Ertugrul Bayraktar1, * ; Cihat Bora Yigit2 ; Pinar Boyraz2

İnsanlar, çevrelerinden en büyük ve nitelikli veriyi, görme sistemleri aracılığıyla edinirler. Bununla birlikte, daha eksiksiz ve güvenilir bir algılama için diğer duyu organlarından elde edilen verileri de tamamlayıcı bir şekilde kullanmak gerekir. İnsanlara benzer şekilde robotlar da algılayıcıları aracılığıyla içinde bulundukları ortamdan veri toplarlar. Nesne algılama, tanıma ve anlamsal değer atfetme, robotik alanındaki en güncel araştırma alanlarının başında gelmektedir. Yazılım ve donanım teknolojilerinin gelişimi akıllı sistemlerin günlük yaşama nüfuzunu sağlamaktadır. Yüksek çözünürlüklü, derinlik algılayan kameralar, nesnelerin interneti aygıtları gibi donanımlar çok boyutlu ve büyük hacimli veri elde etmeyi mümkün kılmıştır. Buna paralel olarak robotlar, endüstriyel alanda kullanımlarının yanısıra sosyal hayatın da bir parçası olarak değerlendirilmeye başlanmıştır. İnsan-robot etkileşimli sistemler içerik olarak gerçek zamanda çalışma açısından yüksek doğruluk ve hız gerektirmektedir.

Kontrolsüz artan dünya nüfusu ve dengesiz tüketimin bir sonucu olarak geleneksel üretim yöntemlerinin ihtiyaç ve talepleri karşılayamaması, zorlu rekabet şartlarının hüküm sürdüğü üretim sektöründe yeni yaklaşımları zorunlu kılmaktadır. Üretimdeki bu ihtiyaç ve zorunluluklara cevap vermek üzere Endüstri 4.0 adlı yenilikçi bir vizyon ile akıllı üretim yöntemleri ve tesisleri öne sürülmüştür. Bu vizyon kapsamında makinalar, cihazlar, sensörler ve insanlar arasında iletişimin sağlanabildiği, gerçek sistemlerin sanal fiziksel bir kopyasının dijital ortamda oluşturularak bilginin anlamsallaştırıldığı ve bilgi şeffaflığının sağlanabildiği ortamlar oluşturulması planlanmaktadır. Ayrıca insanlara zorlu şartlarda makinalar tarafından teknik destek sağlanması, siber-fiziksel sistemlerin karşılaştıkları bazı problemlerle ilgili kendi kararlarını insanlara ihtiyaç kalmadan verilebilmesi de, bu çerçevede, geleneksel üretim yöntemlerine bilişim teknolojilerinin entegrasyonu için amaçlanmaktadır.

İnsan-robot etkileşimi çerçevesinde, robotların; güvenli, hızlı ve verilen görevleri yüksek başarım/düşük hata oranlarıyla gerçekleştirebilmesi, gelişen makine öğrenmesi algoritmaları ve bu algoritmalara uygun donanım teknolojileriyle mümkün hale gelmiştir. Akıllı üretim tesislerinde robotların yer değiştirmeleri esnasındaki hareketleri, verilen görevleri beklenen performans düzeylerinde yapabilme kabiliyetleri, sahip oldukları donanım ve yazılım sistemlerine direkt olarak bağlıdır. Konvolüsyonel (evrişimsel/evrişimli) derin yapay sinir ağları daha çok nesne tanıma gibi görsel ve ses tanıma gibi ses tabanlı verilerle nesne tanıma, nesne sınırları belirleme, nesne bölütleme, anlamsal bağ oluşturma gibi amaçlarla eğitilir.

Nesnelerin interneti aygıtları ve çeşitli sensörlerden aldıkları verileri işleyerek, öğrenen sistemlerin oluşturulması modern robotik ihtiyaçlarına cevap vermektedir. Böylelikle öğrenebilen robotik mekanizmalar, işleyişleri esnasında çeşitli duyargalardan aldıkları verileri işleyerek öğrendikleri modeller üzerinden karşılaştırma yaparak anlamsal bilgi edinimine haiz olurlar. Yenilikçi robotik yaklaşımlarda, kritik öneme sahip olan bu durum vasıtasıyla, robotlar karmaşık yapılardan anlamlı bağlar kurarak insanlara benzer davranış geliştirme özelliği kazanabilirler. Hafıza kapasiteleri, birim enerji başına performansları ve paralel hesaplamaya uygun çok çekirdekli yapılarıyla güncel grafik ekran kartları derin yapay sinir ağı yapılarının eğitilmesine ve böylece daha fazla parametre öğrenilebilen büyük boyutlu verilerin işlenmesine imkan tanımaktadır. Ayrıca gömülü sistem olarak çalışmaya uygun benzer şekilde çok çekirdekli donanımlar da gerçek zamanlı bilgisayarla görü içeren, karmaşık robotik uygulamalara imkan tanımaktadır.

Konvolüsyonel derin yapay sinir ağları, bazı özel mimari, parametre güncelleme yöntemleri ve aktivasyon fonksiyonları ile ikiden daha fazla sayıda gizli katman içeren özelleşmiş yapay sinir ağı modellerine verilen genel addır. Büyük veri kullanılarak eğitilen derin konvolüsyonel sinir ağı modelleri, eğitildikleri veri kümesinde bulunan nesneleri tanıma, nesneleri çevreleyen sınırları belirleme ve bölütleme gibi konularda insan performansından daha yüksek başarımlı, çok küçük hata değerlerine sahip sonuçlar vermektedir. Robotik alanındaki uygulamalar için nesne tanıma ve nesne sınırları belirleme işlemleri anlamsal bilgi çıkarımı ve nesnelere dayalı ilişki kurma bağlamında tek başına yetersiz kalmaktadır. Bu sebeple, nesnenin ait olduğu sınıfa, sınıf etiketlerinin ötesinde öznitelikler atanarak algoritmaların anlamsal içerik konusundan çıkarım yapabilmeleri sağlanır.

Robotik mekanizmalara ait çalışmalar uzun ve maliyetli deneyler gerektirmektedir. Bu ksııtların etkilerini en aza indirmek adına benzetim ortamlarından faydalanılır. Böylece zaman ve maliyetten tasarruf edilirken, birçok varyasyon denemesi yapılarak gerçek dünya deneylerine olabildiğince hazır prototiplerle başlanır. Kısıtlı kabiliyete sahip geleneksel öznitelik algılama ve tanıma yöntemlerinden ziyade konvolüsyonel sinir ağları, başarım oranı daha yüksek ve daha hızlı anlamsal bilgi elde edebilmekte, böylelikle gerçek-zamanlı robotik uygulamalara imkan tanımaktadır. Bu modellerin istenen sonuçları üretebilmeleri parametrelerinin uygun şekilde optimize edilmesine bağlıdır. Bu da ancak yeterli sayıda veri ile mümkündür. Bu tez kapsamında robot görüsü çalışmalarında kullanılmak üzere, benzetim ortamlarıyla gerçek dünya koşulları arasındaki farkı azaltmaya yönelik, ADORESet (Gerçek Görüntüler için Alternatif Link, Sentetik Görüntüler için Alternatif Link) adında bir görüntü veri kümesi oluşturulmuştur.

ADOR
Şekil 1: Ölçeklenmiş ve etiketlenmiş gerçek (sol) ve sanal (sağ) ortamlardan alınan her bir nesne sınıfına ait görüntüler.

ADORESet, 30 kategoride, her bir kategoride 2500'er gerçek, 750'şer tane de benzetim ortamından alınan toplamda 97500 adet etiketli ve nesne sınırları elle işaretlenmiş görüntüden oluşmaktadır.

Tablo 1 Görüntülere ait bilgileri kayıt formatı.

Görüntü Adı	Ardıl Nesne Etiketi 1	Ardıl Nesne Etiketi 2	Ardıl Nesne Etiketi 3	Sol Üst Çevreleyen Sınır Koordinatı x	Sol Üst Çevreleyen Sınır Koordinatı y	Sağ Alt Çevreleyen Sınır Koordinatı x	Sağ Alt Çevreleyen Sınır Koordinatı y
012005765	Bottle	Bowl	-	17	33	288	236
017000021	-	-	-	1	1	300	300
001001328	Deleted			-	-	-	-
015000456	Monitor	-	-	7	65	291	262

İndirme Bağlantıları:

ADORESet: Tüm içerik tek dosya halinde (Yaklaşık 1.8GB) İNDİR

ADORESet: Gerçek Görüntüler (Tüm sınıflara ayrı ayrı erişim sağlanabilir) İNDİR

ADORESet: Sentetik Görüntüler (Tüm sınıflara ayrı ayrı erişim sağlanabilir) İNDİR

Referans vermek için:

Bayraktar, E., Yigit, C., B., Boyraz, P.” A Hybrid Image Dataset Towards Bridging The Gap Between Real And Simulation Environments For Robotics”, Machine Vision and Applications, 2018.