Yapay zeka Covid-19 teşhisinde yardımcı olabilecek mi?

Yapay zeka güçlü bir tıbbi araç olarak umut vaat etse bile, istatistikçiler kullanımda olan modellerin ciddi biçimde kusurlu olduğu konusunda uyarıda bulunuyorlar. Yetersiz veri kümelerinden meydana yeni algoritmaların büyük kısmı bekleneni sunmaktan fazl

Yıllardır, birçok yapay zeka meraklısı ve araştırmacı makine öğreniminin modern tıbbı değiştireceğine dair sözler verdi. Kanser, kalp hastalığı ve psikiyatrik bozukluklar gibi durumları teşhis etmek için binlerce algoritma geliştirildi. Şimdiyse, algoritmalar artık CT taramaları ve akciğerlerin X-ray görüntülerindeki desenleri tanıyarak Covid-19’u tespit etmek üzere eğitiliyorlar.

Bu modellerin büyük kısmı hangi hastaların en ağır sonuçlarla karşılaşacağını ve kimlerin solunum cihazına ihtiyaç duyacağını tahmin etmeyi amaçlıyor. Heyecan hissedilir derecede yüksek; eğer modeller doğruysa, doktorlara, hastaları test etme ve korona virüsüne yakalanan hastaları tedavi etme konularında büyük bir ilerleme sağlayabilirler.

Ne var ki gerçek Covid-19 hastalarının tedavisi için yapay zeka destekli ilaç ihtimali şimdilik çok uzakta gibi görünüyor. Dünyanın dört bir yanından bir grup istatistikçi, makine öğrenimi modellerinin büyük çoğunluğunun kalitesinden ve hastanelerin yakın zamanda bunları kullanıma alması durumunda neden olabilecekleri zararlardan ötürü endişe duyuyorlar.

Hollanda’da bulunan Utrecht Üniversitesi Tıp Merkezi’nde tıbbi istatistikçi olarak görev yapan Maarten van Smeden, “Bu bizi çok korkutuyor; çünkü modellerin tıbbi kararlar almak için kullanılabileceğini biliyoruz” diyor. “Eğer model kötüyse, tıbbi kararlar olumsuz etkilenebilir. Bu yolla da hastalara zarar görebilir.”

Van Smeden, Covid-19 modellerini standart hale getirilmiş ölçütler kullanarak değerlendirmek üzere toplanan ve uluslararası araştırmacılardan oluşan geniş bir ekibin yürüttüğü bir projeye liderlik ediyor. Proje, BMJ’de (Britanya Tıp Bülteni/ç.n.) üzerindeki ilk canlı (online) inceleme; yani 40 kişilik bir hakem grubundan oluşan (ve büyüyen) ekip, yeni modeller piyasaya sürüldükçe incelemelerini aktif biçimde güncelliyor.

Şu ana dek, Covid-19 makine öğrenme modelleri hakkındaki değerlendirmeleri olumlu değildi: Geniş bir yelpazedeki araştırma alanlarında çalışan uzmanların ve ciddi bir veri birikiminin eksikliğinden dolayı sıkıntı yaşanıyor. Öte yandan, yeni Covid-19 algoritmalarının karşı karşıya kaldığı sorunlar hiç de yeni değil: Tıbbi araştırmalarda kullanılan yapay zeka modelleri yıllardan beridir derin kusurlar barındırıyor ve van Smeden gibi istatistikçiler yaşanan gelgiti tersine çevirmek için alarm çanını çalıyor.

Covid-19 salgınından önce, Vanderbilt Üniversitesi’nde biyoistatistikçi olan Frank Harrell, mevcut tıbbi yapay zeka modelleriyle ilgili yaygın görülen sorunlar hakkında tıbbi araştırmacılarla görüşmeler yapmak üzere ülke genelinde seyahat ediyordu. Sıkça, bu sorunu tanımlamak için ünlü bir ekonomistten bir satır ödünç alıyor: Tıp araştırmacıları ‘bir itiraf elde edene kadar verilere işkence etmek için’ makine öğrenimini kullanıyorlar.

Sayılar Harrell’ın iddiasını destekliyor ve tıbbi algoritmaların büyük kısmının temel kalite standartlarını zar zor karşıladığını ortaya koyuyor. Ekim 2019’da, İngiltere’de bulunan Birmingham Üniversitesi’nden Xiaoxuan Liu ve Alastair Denniston liderliğindeki bir araştırma ekibi, modaya uygun ama zor bir soruyu yanıtlamayı hedefleyen ilk sistematik analizi yayınladı: Makineler, hastaları teşhis etmede insan doktorlar kadar ve hatta onlardan daha iyi olabilirler miydi? Makine öğrenme algoritmalarının çoğunun, tıbbi görüntüleme aracılığıyla hastalıklar tespit edilirken insan doktorlarla eşit olduğu sonucuna vardılar. Bununla birlikte, daha sağlam ve şok edici bir bulgu söz konusuydu; 2012’den bu yana yayınlanan hastalık tespit algoritmaları hakkında yapılan toplam 20 bin 530 çalışmanın ancak yüzde birinden daha azı, analizlerine dahil edilecek kadar metodolojik olarak titizdi.

Araştırmacılar, yapay zeka çalışmalarının büyük çoğunluğunun iç karartıcı bir kalitede olmasının, tıp alanında yapay zekanın son zamanlarda aşırı baskıya maruz kalmasıyla doğrudan ilişkili olduğuna inanıyorlar. Bilim insanları çalışmalarına git gide daha fazla yapay zeka eklemek istiyor ve tıp dergileri de yapay zeka kullanan çalışmaları her zamankinden daha fazla yayınlamak istiyorlar. Denniston, “Yayına giren çalışmaların kalitesi, başlığında yapa zeka olmayan bir çalışmayla kıyaslandığında bile beklediğimiz kadar iyi değil” diyor.

Ve önceki algoritmalarda görülen temel kalite sorunları Covid-19 modellerinde de ortaya çıkıyor. Covid-19 hakkındaki makine öğrenme algoritmalarının sayısı hızla arttıkça, bu alanda zaten var olan tüm sorunlardan oluşan bir mikrokozmos haline geliyorlar.

Tıpkı öncülleri gibi, yeni Covid-19 modellerinin kusurları da şeffaflık eksikliğiyle başlıyor. İstatistikçiler yalnızca belirli bir Covid-19 yapay zeka çalışmasının araştırmacılarının bile aslında ne yaptığını anlamaya çalışırken zor zamanlar geçiriyorlar; çünkü bilgiler çoğu kez kendi yayınlarında dahi belgelenmiş değil. Van Smeden, “O kadar kötü rapor ediliyorlar ki, bırakın bu modellerin çıktı olarak ne sunduklarını, girdi olarak neleri barındırdığını bile tam olarak anlayamıyorum” diyor. “Bu, korkunç bir durum.”

Van Smeden’in ekibi, belgelendirme eksikliğinden dolayı, ilk etapta modelin oluşturulması için gereken verilerin nereden sağlandığından emin olamıyor; bu durum, modelin, hastalığın ciddiyeti hakkında doğru teşhisler veya tahminler yapıp yapmadığını değerlendirmelerini zorlaştırıyor. Bu da modelin yeni hastalara uygulandığında doğru sonuçlar verip vermeyeceği hususunda bir belirsizlik yaratıyor.

Yaygın rastlanan bir diğer sorun, makine öğrenimi algoritmalarının eğitiminin büyük miktarda veri gerektirmesi fakat van Smeden, ekibinin gözden geçirdiği modellerin çok az veri kullanıldığını ifade ediyor. Karmaşık modellerin milyonlarca değişken içerebileceğini söylüyor ve bu durum, doğru bir teşhis veya hastalık ilerlemesi modeli oluşturmak için binlerce hastayla ilgili veri kümelerinin kullanılmasının gerekli olduğu anlamına geliyor. Buna karşın, van Smeden, var olan yüzlerce modelden pek çoğunun bu geniş alana yaklaşmayı bile başaramadığını söylüyor.

Bununla birlikte, veri kümelerinin küçük olmasının sebebi, dünya çapındaki Covid-19 vakalarının eksik olması değil. Van Smeden, bundan ziyade, araştırmacılar arasındaki işbirliği eksikliğinin, ekiplerin kendi küçük veri kümelerine güvenmelerine yol açtığını söylüyor. Bu durum, aynı zamanda, çeşitli alanlarda çalışan araştırmacıların birlikte çalışmadığını gösteriyor ve araştırmacıların klinik bakımı ilerletme konusunda gerçek bir şansı olan modeller geliştirme ve ince ayarlar yapma kabiliyetinde büyük ve çetin bir engel teşkil ediyor.

Van Smeden’in de belirttiği üzere, “Yalnızca modelleyicinin uzmanlığı yetmiyor, aynı zamanda istatistikçilerin, epidemiyologların ve klinisyenlerin de gerçekten faydalı bir şeyi gerçekleştirmek için birlikte çalışması gerekiyor”. Van Smeden, son olarak, yapay zeka araştırmacılarının bir salgın sırasında bile daima kaliteyi hız ile dengelemesi gerektiğini işaret ediyor. Neticede, kötü modeller olan hızlı modeller, vakit kaybına neden oluyor.

Van Smeden “Bizler istatistik polisi olmak istemiyoruz” diyor. “İyi modeller bulmak istiyoruz. Eğer ortada iyi modeller varsa, bence fazlasıyla yardımcı olabilirler.”

Yazının aslı Discover Magazine sitesinden alınmıştır. (Çeviren: Tarkan Tufan)