Özgür gazeteciliğe destek olun
Search
Close this search box.

Midjourney’in elleri: Yapay zekanın insan anatomisiyle imtihanı

Yapay zekayı (Artificial Intelligence – AI) artık sıkça konuşmaya başladık. Bunda ChatGPT ve Midjourney’in çok önemli bir payı var. ChatGPT ve Midjourney, sosyal medyayı son aylarda resmen rehin aldı, ortalık dijital çizimlerden geçilmiyor. Ancak Midjourney’de ilginç bir durum var: Devasa eller. Nilay Kamu, bu elleri ve onlardan nasıl kurtulabileceğinizi sizin için yazdı.

Bir Midjourney görseli

Midjourney’in şu an betası kullanılıyor, tüm süreç Discord sunucuları üzerinden ilerliyor. İlk aşamada ücretsiz olan Midjourney daha sonra ücretsiz sürümün sonuna geldiğinizi size bildiren bir mesaj atıyor. Sistemi kullanmak, aslında kolay.

Midjourney’in açılış ekranı

Öncelikle Discord sunucusuna girmeniz gerekiyor. İnternet sitesinden Discord uygulamasına yönlendirme linki ile kolaylıkla geçiyorsunuz. Sonrasında, bu işe aşina olmayanlar için açılan ve şu andaki adı newbies olan (zamanla değişebiliyor) sunuculardan birine giriyorsunuz. Buraya ise “/imagine:prompt” yazdığında artık hazırlamak istediğiniz görselin detaylarını girmeye başlıyorsunuz.

İnternet aleminde çok daha fazla girdiye sahip olduğu için ben İngilizce komutlar girerek bazı görseller oluşturmaya başladım. İnternetten de akabinde nasıl detaylar verirsem daha güzel bir sonuca ulaşabilirim, aslında bunu öğrenmeye çalıştım. Sonuçta ne istediğime karar verdikten sonra bazı detaylar girmeye başladım.

Midjourney’de yolculuk

İlk etapta, benim verdiğim komutları çok kısa süre içinde mükemmele yakın bir şekilde tasarladığını zannetmiştim ancak işler daha karmaşık ve “niş” özellikte çıktılar istediğimde AI’ın kafası karışmaya başladı. Midjourney, portre ve manzara odaklı görselleri neredeyse kusursuza yakın hazırlıyor olmasına karşın, insan anatomisinin önemli olduğu çıktılarda oldukça korkunç sonuçlar veriyor.

Sizinle birlikte yüzlerce insan sunucuda aynı anda veriler girerken, başka insanlar için hazırlanan görselleri de inceleyebiliyorsunuz. O sırada göz bebeği, diş, el ve ayak parmakları gibi insana özgü olan parçaların hiç de “normal” görünmediğini fark ettim. Araştırmaya başladıktan sonra Midjourney’in insan ve canlı anatomisine dair ne kadar da eksik ya da kusurlu olduğunu fark ettim. Sağlıklı ve eksiksiz dişe sahip bir insan güldüğünde 32 dişin, en fazla yarısı görünür ancak bu yapay zeka ile hazırlanan gülen insan görsellerinde durum çok acayip.

El görsellerinde de korkunç deformasyonlar var. Ellere dair bazı detaylar girdim ve elbette bir sanat akımına bağlı görünmesi için önemli ressamların isimlerini de. Karışık bir stil istediğim için en bilinen ressamları seçtim: Leonardo Da Vinci, Donatello, Raphael, Michelangelo.

Bakın, ne sonuçlar aldım:

İşte o eller!

Versiyon-1: İlk denemede ellere bakın

Versiyon-1 olarak adlandırdığım bu görsellerde bütün ressamların has tarzları kendini açıkça olmasa bile nispeten gösteriyor. Ancak ellere dikkat ettiğimizde ciddi form bozuklukları söz konusu. İlk üç görsel belki de göz ardı edilebilir ancak dördüncü görselde tamamen bozulmuş ve insan eli dışında bir yaratık eli gibi duruyor. Rahatlıkla bir korku filmine eklenebilecek bir karakter eline benzemiyor mu?

Bu arada, verdiğim komut da şu: Donatello style, Raphael style, Michelangelo style and Leonardo Da Vinci style, perfect hands, 8k, hyper realistic, young woman trying to slice an apple using her hands

Yine insanların ellerinde tuttukları diğer objeler de sorunlu. Örneğin, yukarıdaki ikinci resimdeki makas, bıçak, aynı komutu farklı şekillerde tekrar ve tekrar verdiğimde oluşan görseller benzer şekilde kötü oldu. Yüzler, saçlar ve kıyafetlerdeki hiper gerçekçilik, konu ellere geldiğinde yok.

Bakın diğer denemelerim de böyle:

İkinci deneme de bayağı ürkütücü
Altıncı denemede işler biraz düzeliyor

Biraz da Empresiyonistlere bakalım

Bu sefer ise empresyonist ressamlar Monet ve Manet imzası taşıyan gerçekçi bir görsel oluşturmasını istedim.

Komutu verdiğim görseller cidden bu ressamların fırça darbelerini içermesine rağmen yapay zekanın anatomi bilgi eksikliği burada da bizleri karşıladı. Elleri unutup diğer yerlere odaklanıldığında dahi diğer görseller kadar iyi görünmeyen sonuçlar ortaya çıktı.

Komut: monet and manet style, perfect hands, 8k, hyper realistic, young woman trying to slice an apple using her hands

İşte sonuçlar:

Bir deneme daha

Komut: leonardo da vinci style, 8k, perfect hands, two hands high five

Bu sefer işleri biraz daha kolaylaştırmak adına yeni bir komut girmeyi denedim. Burada ise heykel işi görseller oluşturuldu yapay zeka tarafından. Eller nispeten daha iyi görünse de kusursuz Leonarda da Vinci stili ellerden eser dahi yoktu.

Yeni bir komut daha verdim:

hands of a cracked, old, completely dysfunctional, suffering person

Burada artık bana daha farklı sonuçlar çıkartır düşüncesiyle “sanatçı” eklemeden bir el görseli hazırlamasını istedim ama sonuç yine başarısız oldu. Birbiri üstüne konmuş kırışık ellerin parmak sayısı, tırnak formu ve pek çok detayı yine başarısızdı. Bu farklı versiyonları çalıştıktan sonra konu hakkında Twitter’daki kullanıcıların deneyimlerini merak etmeye başladım ve karşılaştıklarım aslında yaşadıklarımdan farksızdı:

Midjourney’in elleri :(

Biraz da diğer kullanıcıların deneyimlerine bakalım. Mükemmel gibi görünen ancak detaylara girildiğinde korkunç görünen bu görseller Midjourney ile oluşturuldu.

Bir kullanıcı Midjourney üzerinden oluşturduğu elleri ve ayakları paylaştı ve sonuç felaketti. Sanat yönetmeni Tal Yellin, paylaştığı görsel ile yapay zekanın gerçekten de yapay olduğunu gösterdi:

Resimler konusunda tutkulu olduğunu aktaran Ed Muscat Azzopardi, Midjourney’e sokak fotoğrafçılığı için komutlar girmiş ve “çok da korkunç” olmayan sonuçlar ortaya çıkmış:

Bu kullanıcı da “ellere bakma” notu düşerek sonuçtan memnuniyetsizliğini aktarıyor aslında:

Ve bir başka örnek:

Reddit tarafında ise bir kullanıcı, “Hey, Midjourney ve ellerin nesi var?” diye sordu ve cevap veren kullanıcıların büyük bir kısmı yapay zekanın şu an başarısız olsa da ilerleyen günlerde ve belki de aylarda bu sorunun üstesinden geleceğini yazdı.

Aslında bu sorunu çözmenin kolay bir yolu olabilir

Oluşturulan görsellerin nasıl düzeltileceğine dair paylaşım yapan bir kullanıcı direkt sunucu üzerinden bunun mümkün olduğunu videosunda anlatıyor.

Yukarıda benzer şekilde verdiğim komutlara ek olarak /settings diyebiliyorsunuz. Bu komutu verdikten sonra Midjourney karşınıza seçenekler çıkartıyor. Burada ise Remix mode’u seçmeniz gerekiyor. Sonrasında gelen Remix Prompt ekranına cümlenizin ve komutlarınızın konumuna göre başa ya da istediğiniz kısma “anatomically correct” ve “no extra arm” ya da “five fingers human” gibi detaylar ekleyebiliyorsunuz.

Sonuçta çok daha iyi bir görsel oluşuyor. Buna şüphe yok. Ancak her durumda geçerli olmayabilir gibi de görünüyor.

Merak edenler için videoyu aşağıya bıraktım:

Jasper Whisperer adlı dijital tasarımcı ise yine konu hakkında bir yazı hazırlamış. Bu yazıda benim şu anda değindiğim konuya biraz daha detaylıyaklaşıyor. Yapay zeka tarafından oluşturulan el çizimleri nasıl düzeltilir sorusunu soruyor ve çözümleri aktarıyor. Yapay zeka tarafından oluşturulan görsellerdeki ellerin Cadılar Bayramı dekoru olarak gören Whisperer, ellerin oluşturulmasının halihazırda en karmaşık şekillerden biri olduğunu söylüyor. Yapay zeka sistemlerinin tamamı için eller gibi detaylı çalışma isteyen nesnelerin “iyi ve hızlı mühendislikten” geçerek daha iyi sonuçlar verebileceğini düşünüyor. Yapay zeka için ellerin bu kadar zorlayıcı olmasının nedenlerini sıralayan Whisperer, öncelikle el anatomisinin karışık olduğunu aktarıyor. Parmakların tümü farklı şekil ve boyutlarda olabilir ve farklı kıvrım hareketlerini karşılıyor olabilir. Bu nedenle tek bir elin tasvir edilmesi bile kendi içinde pek çok değişkeni barındırıyor.

Örneğin eller gevşek pozisyondayken bile “duruş bilgisi” gerektiriyor. Parmak eklemlerindeki kırışıklık ve kıvrımlar da insanların dahi zorlukla çizgilerle ifade ettiği bu uzvun, yapay zeka tarafından anlaşılmasının güç olmasını anlamlı kılıyor. Ellerin bu karmaşık geometrisi ve kendi içinde farklılıkları barındırıyor olması yapay zekanın el olarak tanımlayabileceği bir veri ya da şekil setinin varlığını mümkün kılmıyor. Haliyle hataların başında bu geliyor.

Yazıda aktarıldığı kadarıyla insanın el parmaklarından bilek eklemlerine kadar yaklaşık 30 noktada geometrik sapma bulunuyor. Bu nedenle her insanın el ölçüsü farklı ve karmaşık hatta kişiye özgü hale geliyor.

Bu nedenledir ki yüz tanıma teknolojisine kıyasla parmak izi ya el geometrisinin çok daha iyi biyolojik tanımlayıcı oldukları söyleniyor. Öyle ki eller vücudun parmak izleri olarak da tanımlanabilir.

Bir diğer yandan ressamların da en çok zorlandığı alanlardan birinin eller olduğu zaten biliniyor. Elleri yetenekli sanatçılar dahi çizerken zorlandıklarını söylüyorlar. Çizgi film karakterlerinin de üç ya da dört parmakları olmasının temel sebebi budur. Beş parmağı gerçekliğe uygun çizmek gerçekten zor ve aslında bozuk çizdiği için yapay zekayı suçlamamak gerekiyor diyor, Whisperer. Psikolojik olarak el ve parmaklardaki hatalara daha eğilimli olduğumuz için yapay zekanın sunduğu görsellerdeki diğer hatalar daha az rahatsız edici geliyor. Bir yapay zeka hazırladığı görselde omzu yüzde beş oranında daha küçük tasarlasa bile bize rahatsız edici gelmez ancak, baş parmağı, işaret ya da orta parmağın en azından biri dahi bozuksa görsel bize rahatsızlık verir.

Bazen yapay zekaya çok yüklendiğimiz de oluyor. Aynı yazıda başarılı bir sanatçının yıllardır el çizmesine rağmen gerçekçi bir el çizmesi için saatler, günler ve belki de bazen haftalarca uğraşması gerekebilir. Midjourney tarafından oluşturulan görseller sadece birkaç saniyede gerçekçi görünümü yakalamaya çalışıyor. Yapay zeka teknolojisinin hala büyümekte olduğunu ve harika görüntüler üretebilse de bazı “sınırlarının” olduğunu kabul etmemiz gerekiyor. Whisperer, el çizimlerinin karmaşık yapısına rağmen, yapay zekaya verilecek komutlar ile umut vadeden sonuçların çıkabileceğini söylüyor ve yapay zeka ile daha iyi el çizimleri için bazı öneriler sunuyor:

Gerçekten de el çizimi odaklı bir görsel oluşturulmasını istiyorsanız, el ile ilgili çok daha fazla spesifik detay vermelisiniz.

Ellerin aktif olarak işlenmesi sonuçları daha doğru kılıyor. Örneğin, uzun ince parmakların sıkıca tuttuğu bir kahve fincanı, şeklindeki komut “kupayı tutan el” komutundan çok daha iyi sonuçlar alınmasını sağlayacaktır.

Eğer bir portre ise eller de bu bütünlüğü bozuyorsa, kırpmayı deneyin.

Yardımcı uygulamalarla oluşturulan görsel üzerinde çalışmalar ve düzenlemeler yapın.

El anatomisinin nadide örneklerini Midjourney’de kullanabilirsiniz. Bu sayede daha tutarlı ve gerçekçi el çizimleri almanız mümkün olabilir.

Ayrıntılı eylemler ekleyin. Kıvrılmış, yumruk yapılmış ya da işaret parmağı yukarıda gibi terimler kullanmak oluşturulacak el görselini daha tutarlı yapacaktır.

Ve son olarak… Stabe Diffusion

Midjourney ile haklarınız bittiğinde ve ücretli sürüme geçtiğinizi belli eden mesajı aldığınızda geçebileceğiniz ücretsiz bir benzeri var: Stable Diffusion. Burada yine bazı girdiler veriyor ve sonrasında saniyeler içinde çıktı alıyorsunuz. Aynı komutları verince bu sonuçlar çıktı:

Bize destek olun

Medyascope sizlerin sayesinde bağımsızlığını koruyor, sizlerin desteğiyle 50’den fazla çalışanı ile, Türkiye ve dünyada olup bitenleri sizlere aktarabiliyor. 

Bilgiye erişim ücretsiz olmalı. Bilgiye erişim eşit olmalı. Haberlerimiz herkese ulaşmalı. Bu yüzden bugün, Medyascope’a destek olmak için doğru zaman. İster az ister çok, her katkınız bizim için çok değerli. Bize destek olun, sizinle güçlenelim.