Sağlık Alanında Büyük Verinin İşlenmesi Mümkün Mü?

(Bu yazı GENÇ İVEK SAĞLIK BİLİM VE TEKNOLOJİLERİ DERGİSİ’nin 9. sayısında yayımlanmıştır.)

Uzm. Dr. SEDAT İRGİL
Ege Üniversitesi
DNB Analytics

Biyoinformatik; daha çok genetik veya moleküler biyolojinin çalıştığı alanlarda, gereksinim duyulan yöntemler sayesinde gelişen bir bilim dalıdır. Biyoinformatik; epidemiyoloji, tıbbi analiz, istatistik, bilişim, yapay zekâ gibi disiplinlerin de ilgilendiği, giderek daha fazla disiplinler arası olarak tanımlanan bir bilim olarak karşımıza çıkıyor.

Gerek elektronik sağlık kayıtlarının hızla artışı, gerekse yapay zekâ ve makine öğrenmesi algoritmalarının hızlanıp güçlenmesi ve yaygınlaşması ile bu alanda yapılan araştırmalar da biyoinformatik olarak tanımlanmaya başlandı.

Sağlık alanında elde edilen veriler; hastanın demografik verilerinden, tıbbi kayıtlara, psikometrik testlerden, radyolojik inceleme sonuçlarına kadar çeşitlilik göstermektedir.

Ancak toplanan verilerin çok azını işleyebilmekteyiz. İşlenen verinin oranı, farklı yayınlarda belirtilene göre %2 ila %5 arasında değişmekte. Oysa, işlenmeyen veri “bilgi” olarak varsayılmıyor. Veri işlenerek bilginin ortaya çıkarılması, bunun da yorumlanarak “tanı” ya dönüşmesi gerekiyor. Bu tanı ve yorumlar üzerinden de çıkarımlar yaparak, “tahminleme” veya epidemiyolojik çalışmalar yapabiliriz.

Ancak günümüzde bunun önünde teknik ve yasal birkaç engel bulunuyor. Bu engelleri sırasıyla inceleyelim.

İlk engel, sağlık verisinin büyüklüğü olarak karşımıza çıkıyor. Şu an e-Nabız sistemindeki verilerin işlenmesi, klasik bir Excel tablosunda en basit yöntem ile yapılmaya çalışılsa bile PB’larca sunucu alanı gerektirecektir. Bu analizi, makine öğrenmesi ile yapacak olursak bu ihtiyaç daha da artacaktır. Onlarca kat fazla sunucu ve enerji gerekecektir. Peki bu niye oluyor? Bu neden olmakta, açıklayayım.

Yapay zekâ algoritmaları; veriler arasındaki ilişkileri, benzer ve benzemez özellikleri çok hızlı bir biçimde tarayabilir. Ancak bu işlem bilginin genişlemesine neden olmaktadır. Yani örneğin; bir kişinin kan şekeri, yaşı, HbA1c seviyesini araştırıyorsak ve çalışmayı 1000 kişide yapacaksak, 3x3x1000’lik bir matriks olacak demektir. Dahası, bu matriksteki tüm kutucukların birbiri ile ilişkisi 8999×8999: 80,982,001 ilişki (dataset) incelenecek anlamına gelir. Bir örnek çalışmamızda, 2 MB’lık bilginin 8 GB düzeyine genişlediğini gözlemlemiştik. Bu ayrıntılı inceleme, analizlere büyük bir doğruluk kazandırsa da dünyada halen bu kadar veriyi işleyebilecek sunucu alanı ve elektrik gücü yok.

Elektrik gücü niye önemli?

Halen Bitcoin üretiminde kullanılan elektrik Türkiye’nin günlük tüketiminin yarısı kadar. İşlemcilerin hem çalışması hem de soğutulması teknik ama oldukça ciddi sorun çıkaran bir konudur. Bu alanda ilk makalelerin 1954 yılında yayınlanmasına rağmen, yapay zekâ çalışmalarının yavaş olma nedeni budur. Elimizde bu gereksinimleri karşılayacak alet yok. Bu durum; Jules Verne’in 18 yy. da “Aya Yolculuk” kitabını yazarak bunu hayallerimize sokması ama 1950’lere dek aya gidilmemesi gerçeğinin bire bir aynısı.

Varsayalım ki verileri işleyecek aletleri bulduk ve yeterince elektriğimiz de var. Yapay zekâ algoritmaları, genellikle veriyi işler ve bir modelleme çıkarır. Bu modelleme veya formülasyona yeni veri girdiğinizde, olasılıkları çok hızlı görüntülemenize olanak sağlar. Ancak bu modeller genellikle “dinamik” değil “statik”tir. Her coğrafi bölge farklı özellikler taşırken ve sağlık sistemi de hızla dönüşüyorken aynı modeli kullanmak algoritmanın isabetliliğini azaltacaktır. Dinamik bir sistem kurmak, devasa bir bilişsel mimari sorunu yaratacaktır. Düşünün, 82 milyon kişinin anlık verileri sürekli girilmek ve güncellenmek durumunda. Bunun içinse gerekli geniş bant ağ sistemleri ve veri mühendisleri gibi ciddi bir kaynak ayrılması söz konusu.

Son olarak, veriler değişik formlarda kaydedilir. Verilerin yapay zekânın anlayacağı hale getirilmesi ve karşılaştırılabilecek şekilde düzenlenmesi gerekmektedir. Zaten bugün “veri mühendisliği” denen alanın en önemli yükü budur. Biyokimyasal değerler, radyoloji filmleri, hasta anamnezleri, biyometrik veriler vb. bir şekilde aynı algoritmanın anlayacağı hale getirilmeli. Bugün bunu daha çok “analog” yöntemler kullanarak yapıyoruz. Yani bir arayüz kullansak bile, örneğin hastane biyokimyasal verilerini matrikse yerleştiren bir arayüz yazsak bile, birinin tuşa basması, denetlemesi vs. gerekiyor. Ki çoğu yerde böyle bir şansımız yok. Bu nedenle yapay zekâ ile ilgili tıbbi makaleler ya çok sınırlı bir evrende yapılıyor. Aslında sahada görülen ve yapay zekâ denen tüm uygulamalar statik ve kural tabanlı (rulebase)  uygulamalarıdır. Bu verileri hızlı işleyebilmemize olanak sağlayacak yeni bakış açıları kazanmamız gerekmektedir.

Son olarak, yapay zekânın etik ve yasal sorunları da mevcut. Siyaset ve hukuk sistemleri, doğası gereği yavaş ve muhafazakar işliyor. Ancak, bu alanda Çin ve benzeri ülkeler çok yoğun çaba harcıyorlar ve de devlet desteklediği için çok hızlı ilerliyorlar.

Bugün veri ve sosyal medyayı kontrol edenler gücü kontrol ediyor. Ama gelecekte “en iyi algoritmalar ve bilgi işleme gücüne sahip olanlar” güçlü olacak. Bu konuda, hukuk ve sosyoloji lisans alanlarında mutlaka lisans ve yüksek lisans seviyesinde çalışmalara yönelmeliyiz. Çok fazla soru ve sorun var. Vergi memurunun ulaşabildiği veriye sağlık görevlisi ulaşamıyor. Anonim bir şekilde bile sağlık vb. veriler çalışmacılara açılsa –ki İngiltere 240 bin hastayı bu şekilde açtı- çalışmalar çok büyük ivme kazanabilir.

Makaleyi iyi haberler ile sonlandırmak isterim. DNB Analytics’te veri işleme hızı ve verilerin yapay zekâya hazır hale getirilmesi ile ilgili beş yıllık bir ARGE çalışmasının ürünleriyle ciddi yol katettik. Geçen yıl bir makalemiz ile ISEE konferansında en iyi ilk on makale arasına girebildik. Üstelik bu ilk onda Mayo Clinic ve IBM gibi devlerle yarıştık. Bu yıl da finaldeyiz. 23 Mayıs’taki son sunum sonrası belli olacak, hepimizi gururlandıracak bir başarıyı alacağımızı umuyorum. Sizin bu makaleyi okuduğunuz dönemde sonuç belli olmuş olacaktır.

Başka bir örnek de veri işleme hızımızdaki gelişme olabilir. İki yıl önce, 39 milyon veri seti; New York Sunny Üniversitesi süper bilgisayarında yaklaşık beş günde işlenebilmişti. Bugün geldiğimiz aşamada, 59 milyon veri setini 27 saniyede ve kendi bilgisayarlarımızda işleyebiliyoruz. Bu, gerçek zamanlı takip ve analiz konusunda ciddi bir gelişme dönemine giriyoruz demektir.

Ülkemizdeki hukuki belirsizlikler ve yeterli yatırımcı ortamının bulunmaması, çok daha zorlayıcı etmenler olarak karşımıza çıkıyor. Herhangi bir ARGE çalışması için debelenirken bile ağır vergiler ödeyebiliyoruz. Teknik sorunların hepsinin kısa süre içinde çözüleceğine inanıyorum. Ama kanımca, bu tarz sorunlar gelecekteki beyin göçünün en önemli sebeplerinden olacak. Her şeye rağmen umutluyum ve ülkemizin parlak beyinleri sayesinde bu yarışta geri kalmayacağımıza eminim.

Gelecek güzel gelecek.