AI w diagnostyce zaburzeń neurorozwojowych u dzieci — przegląd 64 badań
Diagnoza zaburzeń neurorozwojowych u dzieci jest jednym z najtrudniejszych klinicznie obszarów w psychiatrii i psychologii dziecięcej. Objawy nakładają się na siebie, wysoka współchorobowość zamazuje granice między jednostkami, a symptomy zmieniają się w czasie — wymagając wielokrotnych, badań podłużnych. W tym kontekście sztuczna inteligencja (AI) jest od lat prezentowana jako narzędzie, które mogłoby zwiększyć dokładność diagnostyczną i ułatwić wczesne badania przesiewowe. Pytanie o to, co na ten temat faktycznie mówi zgromadzona literatura naukowa, podjął właśnie przegląd Alberca-González i Fernández-Jiméneza (PMID: 41929366), opublikowany w marcu 2026 roku w Frontiers in Psychiatry.
Cel i metoda — co i jak przejrzano
Przegląd parasolowy (ang. umbrella review) to synteza syntez: autorzy nie analizowali bezpośrednio pierwotnych badań klinicznych, lecz systematyczne przeglądy i metaanalizy poświęcone zastosowaniu AI w diagnostyce zaburzeń neurorozwojowych w populacji dziecięcej (dzieci do 12. roku życia). Próg ten wyznaczono celowo, opierając się na danych epidemiologicznych: szczyt zachorowań na zaburzenia neurorozwojowe przypada na 5.–6. rok życia, a 61,5% przypadków ujawnia się przed 14. r.ż. Przyjęty zakres obejmuje krytyczne okna diagnostyczne wczesnego dzieciństwa (np. ASD czy porażenie mózgowe — do 3.–4. r.ż.) oraz wieku szkolnego (ADHD, specyficzne zaburzenia uczenia się — 6.–9. r.ż.), a aktualne wytyczne wskazują, że interwencje wdrożone w tej fazie maksymalnej neuroplastyczności przekładają się na istotnie lepsze rokowanie. Zakres diagnostyczny obejmował spektrum autyzmu (ASD), ADHD, niepełnosprawność intelektualną, zaburzenia komunikacji, zaburzenia koordynacji rozwojowej oraz specyficzne zaburzenia uczenia się.
Przeszukano trzy bazy danych: Web of Science, PsycINFO i PubMed, obejmując publikacje z okresu styczeń 2015 – sierpień 2025 (data ostatniego wyszukiwania), bez ograniczeń językowych. Wyszukiwanie zarejestrowano w bazie PROSPERO (ID CRD420251110825). Z 148 zidentyfikowanych rekordów, po zastosowaniu kryteriów włączenia i wyłączenia, do analizy zakwalifikowano 64 przeglądy systematyczne i/lub metaanalizy. Jakość metodologiczną każdego z nich oceniono niezależnie przy użyciu narzędzia AMSTAR-2. Autorzy podkreślają, że jest to pierwszy przegląd parasolowy, który kompleksowo syntetyzuje dowody z przeglądów systematycznych i metaanaliz dotyczących AI we wszystkich zaburzeniach neurorozwojowych łącznie.
Które zaburzenia badano najczęściej
Rozkład badań według jednostki diagnostycznej jest wyraźnie nierównomierny. Cztery główne kategorie analizowane przez autorów kształtowały się następująco: ASD (n = 31; ok. 53% włączonych prac), ADHD (n = 14; ok. 24%), różnorodne zaburzenia neurorozwojowe analizowane łącznie — w tym niepełnosprawność intelektualna i zaburzenia komunikacji (n = 9; ok. 15%) — oraz specyficzne zaburzenia uczenia się (n = 5; ok. 8%). Suma tych wartości wynosi 59, a nie 64, ponieważ część przeglądów obejmowała więcej niż jedno zaburzenie i figuruje w kilku kategoriach jednocześnie, a nieliczne prace nie zostały przypisane do żadnej z czterech wyodrębnionych kategorii.
Dominacja ASD i ADHD w literaturze — łącznie ok. 70% włączonych prac — nie jest klinicznie neutralna: inne zaburzenia neurorozwojowe, choć równie wymagające diagnostycznie, pozostają obszarami niedobadanymi pod kątem zastosowań AI. Liczba przeglądów systematycznych i metaanaliz w tej dziedzinie wyraźnie wzrastała od 2021 roku, osiągając szczyt w 2024 roku.
Jakie modele AI i jakie dane
W przeanalizowanych pracach stosowano szerokie spektrum modeli uczenia maszynowego. Klasyczne algorytmy — maszyny wektorów nośnych (SVM), lasy losowe, k najbliższych sąsiadów (k-NN) i drzewa decyzyjne — dominowały w analizach danych neuroobrazowych (MRI, fMRI, DTI), choć znajdowały też zastosowanie w analizach sygnałów EEG i MEG, danych mowy, ruchu rejestrowanego przez czujniki oraz danych klinicznych i socjodemograficznych.
Głębokie uczenie (ang. deep learning), a w szczególności splotowe sieci neuronowe (CNN) i rekurencyjne sieci neuronowe (RNN, LSTM), wyraźnie rozszerzyło zakres zastosowań na przetwarzanie obrazów neuroobrazowych, analizę sygnałów EEG, mowę i ruch. Nowsze architektury — transformery i grafowe sieci neuronowe (GNN) — pojawiają się w literaturze rzadziej, ale wykazują szczególny potencjał w przetwarzaniu danych neuroobrazowych i tekstowych. Autorzy wskazują ponadto na wyłaniający się nurt zaawansowanych metod przetwarzania sygnału dedykowanych fMRI: mechanizmy faktoryzacji uwagi w wymiarze częstotliwościowo-kanałowym (frequency-channel attention factorization) oraz modele uwagi falkowej (wavelet attention), umożliwiające bardziej odporną dekompozycję zależności czasoprzestrzennych. W tym kontekście wyróżniono model F-GAN-NTD łączący generatywne sieci antagonistyczne z nieujemną dekompozycją tensorową w celu ekstrakcji cech nieliniowych i rekonstrukcji niepełnych danych fMRI.
Pod względem modalności danych zdecydowanie dominowały neuroobrazowanie (n = 59 spośród włączonych prac), następnie sygnały elektrofizjologiczne EEG/MEG (n = 19), dane kliniczne i socjodemograficzne (n = 15) oraz dane ruchowe i sensoryczne (n = 11). Wartości te sumują się do liczby przekraczającej 64, ponieważ wiele przeglądów analizowało jednocześnie więcej niż jedną modalność danych.
Autorzy zwracają uwagę na rosnące znaczenie generatywnej AI w tym obszarze. Duże modele językowe (ang. Large Language Models), takie jak udostępniony na licencji open-source MedGemma firmy Google, wykazują coraz większą zdolność do rozumowania na podstawie tekstów medycznych i danych klinicznych. Jednocześnie generatywne sieci antagonistyczne (GAN) są analizowane jako narzędzie łagodzące problem małych prób poprzez syntetyczne rozszerzenie zbioru danych — co może częściowo niwelować jeden z najczęściej wskazywanych ograniczeń badań w tej dziedzinie.
Osobną, klinicznie istotną rolę pełnią modele uczenia nienadzorowanego — algorytmy klasteryzacji, analiza głównych składowych (PCA), UMAP, t-SNE. Autorzy przeglądu wskazują na ich nieodzowność do obiektywnej identyfikacji „biotypów" wewnątrz wysoce heterogenicznych klinicznie zaburzeń neurorozwojowych, których kategorie diagnostyczne DSM-5-TR i ICD-11 nie oddają w pełni. Wyzwaniem dla wdrożenia klinicznego tych metod pozostaje jednak efektywność obliczeniowa — niedostatecznie omawiana w literaturze, a istotna dla stosowania w warunkach klinicznych w czasie rzeczywistym.
Skuteczność diagnostyczna — obiecujące wyniki w kontrolowanych warunkach
Raportowane poziomy dokładności diagnostycznej były na ogół wysokie, przy czym rozpiętość wyników jest duża: od 66% (w modelach opartych na analizie ruchów głowy, twarzy i gałek ocznych) do 99% (w modelach bazujących na neuroobrazowaniu, głosie, ruchu i danych sensorycznych).
Dla ASD modele uczenia maszynowego i głębokiego uczenia osiągały dokładność przekraczającą 90% w analizach neuroobrazowania (MRI, fMRI) i sygnałów elektrofizjologicznych (EEG). Niższą skuteczność — na poziomie 66% — odnotowano w modelach opartych na danych ruchowych i behawioralnych: ekspresje twarzy, śledzenie wzroku, ruchy gałek ocznych i głowy. Autorzy zastrzegają, że heterogeniczność metodologiczna i brak standaryzacji poważnie ograniczają możliwość generalizowania tych wyników poza warunki eksperymentalne.
W przypadku ADHD 14 włączonych prac raportowało średnią skuteczność mieszczącą się w przedziale 80–92% w badaniach z ilościowymi miarami wynikowymi. Przeglądy jakościowe określały wyniki jako „obiecujące", jednak bez podania konkretnych danych liczbowych. Klasyczne modele uczenia maszynowego — SVM, drzewa decyzyjne, lasy losowe — wypadały w tej grupie lepiej niż architektury głębokiego uczenia; nie odnotowano dowodów na skuteczność modeli opartych na transformerach. Warto odnotować, że w literaturze dotyczącej ADHD pojawiały się też metody niestandardowe, takie jak logika rozmyta (fuzzy logic) czy algorytmy ewolucyjne — stosowane głównie do neuroobrazowania, EEG oraz danych klinicznych i behawioralnych.
Specyficzne zaburzenia uczenia się były reprezentowane przez zaledwie 5 prac, które raportowały umiarkowaną skuteczność — dokładność na poziomie 70–88% — z zastosowaniem modeli SVM, k-NN, sztucznych sieci neuronowych i głębokiego uczenia. Modele te opierały się głównie na danych szkolnych, skalach klinicznych, neuroobrazowaniu oraz śledzeniu ruchów gałek ocznych (eye-tracking). Walidacja kliniczna tych modeli pozostaje według autorów na bardzo wczesnym etapie.
Ograniczenia zidentyfikowane w analizowanych badaniach
Równolegle z wynikami skuteczności autorzy systematycznie katalogowali bariery wskazywane przez autorów włączonych przeglądów. Najczęściej odnotowanym problemem był brak zewnętrznej walidacji modeli — wymieniło go 32 z 64 prac. Tuż za nim uplasowała się potrzeba standaryzacji zbierania danych, opracowywania modeli i praktyk raportowania (31 prac). Małe rozmiary prób i ograniczona różnorodność populacji — wynikająca m.in. z silnej koncentracji geograficznej badań (dominują USA, Chiny, Indie i Wielka Brytania) — były wskazywane w 26 pracach, a heterogeniczność metod i miar wynikowych — w 21.
Szczególnie istotny z perspektywy klinicznej jest problem, który autorzy określają jako „paradoks wydajności" (performance paradox): przepaść między techniczną doskonałością modeli raportowaną w warunkach badawczych a ich faktycznym brakiem przełożenia na praktykę kliniczną. 23% włączonych prac (n = 17) wskazywała wprost na ryzyko przeuczenia modeli i błędów systematycznych wynikających z niewystarczających protokołów walidacyjnych i oparcia na danych z pojedynczych ośrodków. Zagadnienia etyczne i regulacyjne — transparentność algorytmów, wyjaśnialność decyzji, nadzór regulacyjny — pojawiały się w 12 pracach.
Jakość metodologiczna — krytycznie niski poziom większości prac
Ocena metodologiczna z użyciem AMSTAR-2 przynosi wyniki, które należy traktować jako kluczowy kontekst dla całej interpretacji przeglądu. 51 przeglądów (ok. 79,7%) uzyskało ocenę krytycznie niską, kolejne 9 (ok. 14,1%) — niską. Jedynie 1 praca (ok. 1,6%) osiągnęła poziom umiarkowany, a 3 prace (ok. 4,7%) — wysoki. Wszystkie prace z oceną wysoką lub umiarkowaną obejmowały ocenę ASD i/lub ADHD (analizowanych wyłącznie lub w połączeniu z innymi zaburzeniami neurorozwojowymi i psychicznymi).
Autorzy wskazują, że ocena AMSTAR-2 odzwierciedla zgodność z określonymi standardami raportowania metodologicznego, nie zaś ogólną wartość naukową danej pracy. Zaznaczają przy tym, że narzędzie to zostało pierwotnie zaprojektowane do oceny przeglądów badań interwencyjnych i może narzucać standardy trudne do spełnienia w badaniach diagnostycznych — zwłaszcza w dynamicznie rozwijających się obszarach takich jak diagnostyka AI, gdzie konwencje raportowania dopiero się kształtują. Niemniej szczegółowa analiza krytycznych domen ujawnia systemowe deficyty: 81,3% prac nie posiadało protokołu zarejestrowanego przed rozpoczęciem badania (np. w PROSPERO) — co jest elementem krytycznym zabezpieczającym przed selektywnym raportowaniem wyników — a 73,4% nie podawało listy wykluczonych badań z uzasadnieniami. Aż 65,6% autorów nie stosowało zadowalającej techniki oceny ryzyka błędu systematycznego w badaniach pierwotnych, a 82,8% nie uwzględniało tego ryzyka przy interpretacji wyników. Osobnym problemem była jakość strategii wyszukiwania: zaledwie 7,8% uznano za kompleksowe, a 54,7% oceniono jako „częściowe" ze względu na pominięcie szarej literatury lub rejestrów badań. Autorzy przeglądu wprost konstatują, że pole musi przedłożyć metodologiczną rzetelność nad samo zwiększanie dokładności algorytmów.
Implikacje dla praktyki klinicznej
Wyniki tego przeglądu mają kilka praktycznych konsekwencji dla klinicystów pracujących z dziećmi z zaburzeniami neurorozwojowymi.
Po pierwsze, żaden z opisywanych modeli AI nie zastępuje specjalistycznej oceny klinicznej. Autorzy wprost podkreślają — za konsensusem naukowym — że aktualny stan wiedzy nie uzasadnia zastępowania diagnozy stawianej przez doświadczonego klinicystę (psychologa klinicznego, psychiatrę dziecięcego) wynikiem algorytmu. Nie istnieją biomarkery o wystarczającej czułości i swoistości, które pozwalałyby na to zastąpienie, co potwierdzają m.in. przeglądy dotyczące neuroobrazowania w ASD.
Po drugie, wysoka dokładność raportowana w badaniach powinna być interpretowana z ostrożnością. Większość danych pochodzi z wewnętrznej walidacji na jednorodnych próbach, często z jednego ośrodka badawczego. Klinicyści powinni traktować te liczby jako wskaźniki potencjału technicznego, nie jako miary gotowości klinicznej modelu.
Po trzecie, ASD i ADHD to obszary, w których literatura jest najobszerniejsza i — w przypadku najlepiej ocenionych metodologicznie prac — najbardziej spójna. Dla innych zaburzeń neurorozwojowych, takich jak specyficzne zaburzenia uczenia się czy niepełnosprawność intelektualna, baza dowodów jest wyraźnie uboższa.
Po czwarte, autorzy zwracają uwagę na szczególne trudności diagnostyczne w przypadkach współwystępowania ADHD z epilepsją lub niepełnosprawnością intelektualną — jako przykłady obszarów, w których wsparcie AI mogłoby być klinicznie najbardziej wartościowe, a zarazem gdzie walidacja modeli pozostaje najsłabsza. To istotna wskazówka dla badaczy planujących dalsze prace w tym polu.
Po piąte, autorzy sugerują, że modele AI mogą wykazywać wyższą skuteczność, gdy zaburzenia neurorozwojowe ujmowane są wymiarowo — integrując wielomodalne dane genetyczne, molekularne, neuroobrazowe, elektrofizjologiczne, neuropsychologiczne i behawioralne — niż przy stosowaniu sztywnych kategorii diagnostycznych DSM-5-TR lub ICD-11. To konceptualnie ważna obserwacja dla klinicystów i badaczy myślących o przyszłości narzędzi wspierających diagnostykę.
Po szóste, autorzy proponują konkretną ścieżkę translacyjną: wieloośrodkowa walidacja prospektywna na populacjach reprezentatywnych dla docelowych grup klinicznych — która musi zastąpić dotychczasowe trenowanie algorytmów na dobieranych w sposób dogodny, historycznie i lokalnie uwarunkowanych retrospektywnych próbach (retrospective convenience samples), dostarczających jedynie ograniczonych i często mylących informacji o rzeczywistej dokładności predykcyjnej — tworzenie otwartych i standaryzowanych zbiorów danych (analogicznie do konsorcjum ABIDE w ASD), wdrożenie wytycznych raportowania STARD-AI i TRIPOD-AI, uregulowanie ścieżek certyfikacji przez organy regulacyjne (FDA, EMA) oraz projektowanie systemów z człowiekiem w pętli decyzyjnej (human-in-the-loop) — pod wyraźnym zastrzeżeniem, że AI ma pełnić rolę wyłącznie wspierającą i rozszerzającą aparat poznawczy specjalisty, natomiast autoryzacja rekomendacji oraz pełna odpowiedzialność prawna i kliniczna za diagnozę pozostają po stronie klinicysty. Zasada ta, wyartykułowana m.in. przez grupę sterującą DECIDE-AI, wyklucza traktowanie wyników algorytmu jako autonomicznych zaleceń diagnostycznych.
Ograniczenia samego przeglądu
Autorzy rzetelnie wskazują na słabe strony własnej pracy. Przegląd obejmował wyłącznie indeksowane przeglądy systematyczne i metaanalizy, co mogło pominąć istotne badania regionalne. Heterogeniczność między włączonymi przeglądami pod względem populacji, modeli AI i miar wynikowych utrudniała syntezę. Nakładanie się pierwotnych badań cytowanych w różnych przeglądach — nieunikniona cecha przeglądów — mogło wpływać na sumaryczne szacunki, mimo zastosowania procedur minimalizujących to ryzyko. Wreszcie, interpretacja wartości dokładności na poziomie nawet 99% powinna uwzględniać jawne ryzyko przeuczenia, na które wskazuje wprost niemal jedna czwarta analizowanych prac.
Źródło: Alberca-González A, Fernández-Jiménez E. Artificial intelligence support for diagnosis of neurodevelopmental disorders during childhood: an umbrella review. Front Psychiatry. 2026;17:1697185. DOI: 10.3389/fpsyt.2026.1697185. PMID: 41929366. PMCID: PMC13039104.
Artykuł ma charakter informacyjny i jest skierowany do specjalistów z wykształceniem klinicznym. Nie stanowi porady diagnostycznej ani terapeutycznej i nie zastępuje konsultacji ze specjalistą.
Diagwise to asystent literatury klinicznej dla psychologów, psychiatrów i psychoterapeutów — zbudowany na bazie recenzowanych publikacji, z cytatami, które możesz zweryfikować.