Czy nowoczesne technologie zmieniają leczenie Crohna?
Zastosowanie uczenia maszynowego w przewidywaniu skuteczności leczenia adalimumabem w chorobie Crohna staje się nową nadzieją w personalizacji terapii. Choroba Crohna (CD) to przewlekła, nawracająca choroba zapalna jelit, której częstość występowania wykazuje znaczący trend wzrostowy na całym świecie. Dane epidemiologiczne wskazują, że zapadalność na CD w Europie i Ameryce przekroczyła 20 przypadków na 100 000 mieszkańców, podczas gdy roczny wskaźnik wzrostu w Azji waha się od 4% do 15%, stanowiąc istotne zagrożenie dla zdrowia publicznego. Pomimo że leki anty-TNF-α stanowią terapię pierwszego rzutu w umiarkowanej do ciężkiej postaci CD, około 30-40% pacjentów doświadcza pierwotnego lub wtórnego braku odpowiedzi, co nie tylko prowadzi do niepowodzenia leczenia, ale również przyczynia się do marnotrawienia zasobów medycznych.
Tradycyjne modele predykcji klinicznej często opierają się na pojedynczych wskaźnikach do oceny skuteczności adalimumabu (ADA), jednak heterogeniczność choroby Crohna utrudnia pełne uchwycenie złożoności schorzenia. Niedawne postępy w technologii uczenia maszynowego wprowadziły nowe podejścia do precyzyjnego i spersonalizowanego przewidywania wyników. Chociaż zastosowania uczenia maszynowego w przewidywaniu odpowiedzi na leczenie anty-TNF w CD wykazały znaczący postęp, pozostają ograniczone przez kilka czynników. Wcześniejsze badania koncentrowały się na pojedynczych algorytmach do przewidywania odpowiedzi na infliksymab, często brakowało im systematycznych porównań między wieloma modelami. Ponadto istniejące modele rzadko uwzględniają dane longitudinalne, a niewiele badań bierze pod uwagę dynamiczne zmiany czynników predykcyjnych w czasie.
Zespół naukowców z Drugiego Szpitala Xiangya Uniwersytetu Centralnego Południa przeprowadził badanie mające na celu opracowanie i walidację modelu uczenia maszynowego do przewidywania stanu remisji klinicznej u pacjentów z CD po 12 i 48 tygodniach leczenia adalimumabem (ADA), a także analizę kluczowych czynników wpływających na skuteczność terapii przy użyciu algorytmu SHAP. W porównaniu z istniejącymi badaniami, to badanie systematycznie porównuje skuteczność predykcyjną sześciu głównych modeli uczenia maszynowego i wykorzystuje algorytm SHAP do interpretacji wkładu poszczególnych cech, zapewniając interpretowalność wyników na potrzeby podejmowania decyzji klinicznych.
Czy metodologia badania odpowiada wymaganiom klinicznym?
W badaniu wzięło udział 244 dorosłych pacjentów z CD leczonych ADA w Zakładzie Gastroenterologii Drugiego Szpitala Xiangya od stycznia 2017 do kwietnia 2024 roku. Kryteria włączenia obejmowały: wiek między 18 a 70 lat, potwierdzoną diagnozę CD zgodnie z kryteriami WHO, okres obserwacji przekraczający 12 miesięcy, brak wcześniejszego stosowania biologicznych leków innych niż antagoniści TNF-α, brak operacji brzusznych lub okołoodbytowych związanych z CD w ciągu roku przed podaniem leku oraz kompletne dane kliniczne. Zebrano kompleksowe informacje o pacjentach, w tym dane demograficzne (płeć, grupa wiekowa według klasyfikacji Montreal), informacje o stylu życia (historia palenia, ilość i czas trwania), charakterystykę choroby (zachowanie i lokalizacja anatomiczna) oraz wskaźniki laboratoryjne przed leczeniem, takie jak wskaźnik masy ciała (BMI), liczba białych krwinek (WBC), hemoglobina (Hb), liczba płytek krwi (plt), albumina (Alb), białko C-reaktywne (CRP), wskaźnik opadania erytrocytów (ESR) i kalprotektyna kałowa (Fc).
Klasyfikacja Montreal jest szeroko przyjętym systemem fenotypowania choroby Crohna, kategoryzowanym przez: (1) Wiek w momencie diagnozy (A): A1 (<16 lat), A2 (17-40 lat), A3 (>40 lat). (2) Lokalizacja choroby (L): L1 (jelito cienkie), L2 (okrężnica), L3 (krętniczo-okrężnicza), L4 (górny odcinek przewodu pokarmowego). (3) Zachowanie choroby (B): B1 (niestrikturyzujące, niepenetrujące), B2 (strikturyzujące), B3 (penetrujące). Ta klasyfikacja pomaga standaryzować charakterystykę choroby i została zwalidowana w licznych badaniach klinicznych.
Remisję kliniczną zdefiniowano jako wynik wskaźnika aktywności choroby Crohna (CDAI) poniżej 150, zgodnie z międzynarodowymi standardami. W badaniu wykorzystano sześć modeli uczenia maszynowego: Random Forest (RF), Gradient Boosting Machine (GBM), XGBoost, LightGBM, CatBoost i AdaBoost. Dane zostały losowo podzielone na zbiór treningowy (80%) do trenowania modelu i optymalizacji parametrów oraz zbiór testowy (20%) do oceny zdolności generalizacji modelu. W zbiorze treningowym zastosowano 5-krotną walidację krzyżową w celu optymalizacji parametrów modelu, zwiększając tym samym stabilność i wiarygodność modelu.
Przetwarzanie danych obejmowało obsługę brakujących wartości w zależności od charakterystyki zmiennych i wskaźników braków. Dla zmiennych ciągłych z poziomem braków poniżej 10% zastosowano imputację średnią. Dla zmiennych kategorycznych z poziomem braków między 10% a 20% zastosowano imputację modalną i oznaczenie. Zmienne z poziomem braków powyżej 20% oceniono za pomocą testów chi-kwadrat (dla zmiennych kategorycznych) lub testów t (dla zmiennych ciągłych). Jeśli P > 0,05 i ranking ważności cechy był niski, zmienne te wykluczano. Zmienne ciągłe standaryzowano za pomocą metody Z-score, gdzie nowe wartości = (wartość oryginalna – średnia)/odchylenie standardowe, zapewniając średnią 0 i odchylenie standardowe 1 do trenowania modelu. Zmienne kategoryczne kodowano za pomocą kodowania one-hot, aby zapewnić rozpoznanie przez model.
Jaki model predykcyjny dominuje w terapii?
Analiza charakterystyki pacjentów nie wykazała istotnych różnic w rozkładzie płci między grupą remisji klinicznej a grupą bez remisji zarówno po 12 tygodniach (P = 0,354), jak i po 48 tygodniach (P = 0,223). Według klasyfikacji Montreal pod względem wieku, grupa A2 (17-40 lat) stanowiła 70,9% (61 przypadków) w grupie remisji i 63,9% (101 przypadków) w grupie bez remisji po 12 tygodniach (P = 0,335). Historia palenia również nie wykazała istotnego związku z remisją kliniczną. W oparciu o klasyfikację zachowania według Montreal, większość typów nie wykazała istotnych różnic w rozkładzie między grupami remisji i bez remisji zarówno po 12, jak i po 48 tygodniach.
Klasyfikacja lokalizacji według Montreal ujawniła, że kombinacja L1+L4 (jelito cienkie + górny odcinek przewodu pokarmowego) wykazała statystycznie istotną różnicę w rozkładzie między dwiema grupami po 12 tygodniach (P = 0,044), podczas gdy po 48 tygodniach nie stwierdzono statystycznie istotnych różnic w żadnej z klasyfikacji lokalizacji. Wskazuje to, że lokalizacja choroby może wpływać na remisję leczenia, ale mechanizmy leżące u podstaw są złożone i wymagają dalszych badań.
W przewidywaniu remisji klinicznej po 12 tygodniach leczenia ADA, modele XGBoost i GBM osiągnęły niemal identyczny wskaźnik dokładności wynoszący 0,813, wykazując wysoką skuteczność w rozróżnianiu pacjentów z remisją i bez remisji. RF, CatBoost i LightGBM wykazały nieco niższe wskaźniki dokładności wynoszące odpowiednio 0,803, 0,803 i 0,775, podczas gdy AdaBoost wykazał najniższy wskaźnik dokładności wynoszący 0,672. Pod względem precyzji i czułości XGBoost i GBM wykazały doskonałą wydajność z wartościami 0,811 i 0,813, skutecznie identyfikując pacjentów w prawdziwej fazie remisji klinicznej. W przeciwieństwie do tego, AdaBoost wykazał stosunkowo niższe wskaźniki precyzji i czułości wynoszące odpowiednio 0,664 i 0,672. Wartości F1-score modeli również znacząco się różniły, przy czym GBM i XGBoost osiągnęły wyższe wyniki 0,812 i 0,811, które były znacznie wyższe niż wyniki innych modeli.
Wartość AUC dla RF wyniosła 0,915, co świadczy o jego silnej zdolności do rozróżniania pacjentów w fazie remisji i bez remisji. GBM i XGBoost plasowały się tuż za nim z wartościami AUC odpowiednio 0,906 i 0,891. Z kolei wartość AUC AdaBoost wynosiła tylko 0,664, odzwierciedlając jego słabszą zdolność dyskryminacyjną. Dla przewidywania remisji klinicznej po 48 tygodniach, CatBoost osiągnął najwyższą dokładność wynoszącą 0,859, podczas gdy RF, XGBoost i LightGBM osiągnęły wysoką dokładność 0,822. W zakresie precyzji, czułości i wyniku F1, CatBoost wykazał najlepszą wydajność z odpowiednimi wartościami 0,860, 0,859 i 0,859, a tuż za nim plasowały się RF, XGBoost i LightGBM, które również wykazały silną wydajność. W przeciwieństwie do tego, AdaBoost i GBM wykazały stosunkowo słabsze metryki we wszystkich tych kategoriach. W odniesieniu do wartości AUC, RF osiągnął najwyższy wynik 0,935, a następnie LightGBM (0,928), CatBoost (0,926) i XGBoost (0,924). Wartość AUC AdaBoost była zauważalnie niższa, wynosząca 0,635, odzwierciedlając jego ograniczoną zdolność dyskryminacyjną.
- Modele XGBoost i GBM osiągnęły najwyższą dokładność (81,3%) w przewidywaniu remisji po 12 tygodniach leczenia
- Najważniejsze markery prognostyczne:
– Kalprotektyna kałowa (Fc) i CRP – kluczowe w pierwszych 12 tygodniach
– Hemoglobina (Hb) – zyskuje na znaczeniu po 48 tygodniach
– BMI i albumina – stabilne znaczenie w całym okresie - Model CatBoost osiągnął najwyższą dokładność (85,9%) w przewidywaniu remisji po 48 tygodniach
Które markery przewidują remisję kliniczną?
Analiza SHAP została wykorzystana do identyfikacji kluczowych cech, które istotnie wpływają na remisję kliniczną. W przewidywaniu remisji klinicznej po 12 tygodniach, kalprotektyna kałowa (Fc) wyróżniała się wśród licznych cech, z relatywnie wysoką średnią wartością Shapleya, wskazującą na silny negatywny wkład w wynik przewidywania. Pacjenci z niższymi wartościami Fc mieli tendencję do osiągania remisji po 12 tygodniach, co sugeruje, że poziomy Fc są ściśle związane z remisją kliniczną. Fc jest wydzielana przez neutrofile i bezpośrednio odzwierciedla stopień zapalenia błony śluzowej jelit. Niska wartość Fc może wskazywać na gojenie błony śluzowej, co w połączeniu z miejscowym działaniem przeciwzapalnym ADA w hamowaniu TNF-α, sprzyja remisji.
Białko C-reaktywne (CRP) również zajmuje ważną pozycję jako kluczowy wskaźnik odpowiedzi zapalnej. Jego poziom odzwierciedla stopień aktywności zapalnej w CD, tym samym istotnie wpływając na przewidywanie remisji klinicznej. Badania wykazały, że utrzymujące się zapalenie może zakłócać homeostazę jelit, powodując uszkodzenie błony śluzowej, nieprawidłową aktywację komórek immunologicznych i zaburzenie równowagi sieci cytokin. Zmiany te mogą zakłócać wiązanie leku z celem i hamować skuteczność leku, tym samym utrudniając remisję kliniczną, co jest zgodne z istotną rolą CRP obserwowaną w tym badaniu.
W miarę postępu choroby, znaczenie hemoglobiny (Hb) znacząco wzrosło po 48 tygodniach. We wczesnych stadiach mechanizmy kompensacyjne mogą utrzymywać funkcje organizmu, ale długotrwałe leczenie nasila wpływ anemii na stan fizyczny i tolerancję leczenia. Anemia osłabia organizm, wpływając na transport i dostarczanie tlenu, prowadząc do niedotlenienia tkanek i narządów, co osłabia układ odpornościowy i zmniejsza odpowiedź na leczenie. Z perspektywy metabolizmu komórkowego, niedotlenienie wpływa na proliferację, różnicowanie i naprawę komórek, utrudniając gojenie błony śluzowej i nie sprzyjając remisji klinicznej. Literatura wskazuje również, że anemia obniża jakość życia i zwiększa ryzyko infekcji, łącznie podkreślając rosnące znaczenie Hb w przewidywaniu remisji klinicznej po 48 tygodniach.
Wskaźniki odzwierciedlające stan odżywienia pacjenta, takie jak BMI i albumina (Alb), również odgrywają znaczącą rolę w modelu predykcyjnym. BMI mierzy stopień otłuszczenia i stan zdrowia, a jego rozsądny zakres odzwierciedla zrównoważone przyjmowanie i zużycie składników odżywczych. Odpowiednie BMI oznacza wystarczające rezerwy energetyczne, wspierające funkcję immunologiczną. Alb, syntetyzowana przez wątrobę, odzwierciedla funkcję syntetyczną wątroby i ogólny stan odżywienia. Normalne poziomy Alb wskazują na odpowiednie rezerwy odżywcze i dobrą funkcję wątroby, utrzymując integralność bariery jelitowej i zwiększając odpowiedź na leczenie biologiczne. Badania pokazują, że odpowiednie wsparcie żywieniowe, w tym diety bogate w białka, witaminy i pierwiastki śladowe oraz niezbędne żywienie dojelitowe lub pozajelitowe, może poprawić funkcje immunologiczne i barierę jelitową, zwiększyć wrażliwość na leczenie i podkreślić znaczenie BMI i Alb w modelu predykcyjnym.
Jak interpretować wyniki analizy SHAP?
Analiza SHAP ujawniła dynamiczne zmiany w znaczeniu cech po 12 i 48 tygodniach. Zarówno Fc, jak i CRP zostały zidentyfikowane jako kluczowe czynniki wpływające na oba punkty czasowe. Jednak Fc wykazało silniejszy negatywny wkład w remisję kliniczną po 12 tygodniach, a jego średni wkład wartości SHAP zmniejszył się po 48 tygodniach, co sugeruje, że efekt gojenia błony śluzowej adalimumabem może stabilizować się w czasie. Znaczenie Hb znacząco wzrosło po 48 tygodniach, co jest zgodne z kumulatywnym wpływem anemii na tolerancję leczenia w trakcie postępu choroby. Ponadto ESR wykazał wyższą średnią wartość SHAP po 48 tygodniach w porównaniu do 12 tygodni, co wskazuje, że chociaż CRP służy jako główny predyktor we wczesnych stadiach, ESR odgrywa bardziej krytyczną rolę w długoterminowej remisji. Wkład BMI i Alb pozostał stosunkowo stabilny, podkreślając trwały wpływ stanu odżywienia na skuteczność leczenia. Te czasowe zmiany podkreślają konieczność priorytetowego traktowania markerów zapalenia jelit (Fc, CRP) podczas wczesnego monitorowania leczenia i skupienia się na anemii (Hb) i przewlekłym zapaleniu (ESR) w długoterminowym zarządzaniu, zapewniając tym samym solidną podstawę dla etapowej strategii klinicznej w CD.
Badanie to systematycznie ocenia sześć modeli uczenia maszynowego w celu zidentyfikowania optymalnego predyktora odpowiedzi na adalimumab, włączając analizę SHAP zarówno po 12, jak i 48 tygodniach, aby odkryć czasowe przesunięcia w znaczeniu cech. Poprzez integrację wielowymiarowych danych klinicznych, w tym charakterystyki demograficznej, wskaźników laboratoryjnych i fenotypów choroby, model ten nie tylko ułatwia dynamiczne przewidywanie remisji klinicznej po 12 i 48 tygodniach leczenia ADA, ale także wyjaśnia zależne od czasu charakterystyki kluczowych czynników wpływających.
Model ilościowo określa interakcje między wieloma czynnikami, dostarczając klinicystom wiarygodnego narzędzia do przewidywania odpowiedzi na leczenie. Na przykład, pacjenci z niższymi poziomami wyjściowymi Fc i CRP wykazują znacząco wyższą prawdopodobieństwo osiągnięcia remisji klinicznej po 12 tygodniach, co sugeruje, że standardowe leczenie ADA mogłoby być priorytetem dla tych osób. Z kolei dla pacjentów, u których przewiduje się słabą odpowiedź, mogą być uzasadnione wczesne dostosowania strategii leczenia.
- Badanie jednoośrodkowe na ograniczonej grupie 244 pacjentów
- Brak uwzględnienia danych multi-omics (mikrobiom jelitowy, metabolomika)
- Potrzeba:
– Przeprowadzenia badań wieloośrodkowych
– Standaryzacji protokołów zbierania danych
– Integracji danych multi-omics dla zwiększenia dokładności predykcji
Jakie wyzwania stoją przed przyszłymi badaniami?
Ewolucja czasowa znaczenia cech ujawniona przez analizę SHAP oferuje odrębne cele monitorowania w całym procesie leczenia CD. We wczesnych stadiach leczenia priorytet powinien być nadany monitorowaniu lokalnych markerów zapalenia jelit i ogólnoustrojowego obciążenia zapalnego. W miarę postępu leczenia uwaga powinna stopniowo przesuwać się w kierunku zarządzania anemią i stanem odżywienia. Ta strategia monitorowania “specyficzna dla etapu” umożliwia przejście od empirycznego podejmowania decyzji do podejścia opartego na danych, zorientowanego na precyzję w zarządzaniu klinicznym.
Pomimo osiągnięcia znaczących wyników, badanie to ma swoje ograniczenia. Po pierwsze, wykorzystano jednoośrodkową próbę o ograniczonej wielkości, co mogło wprowadzić błąd selekcji. Pacjenci z jednego szpitala mogą nie w pełni reprezentować wszystkich pacjentów z CD, ograniczając możliwość uogólnienia modelu i jego zastosowanie w różnych warunkach medycznych. Ponadto, model XGBoost wykazuje silną wydajność dyskryminacyjną, ale warto podkreślić, że badanie to priorytetowo traktuje dokładność dyskryminacyjną nad kalibracją probabilistyczną lub klinicznymi progami decyzyjnymi. Przyszłe badania wykorzystujące dane wieloośrodkowe mogłyby dalej oceniać użyteczność kliniczną modelu poprzez analizę krzywej decyzyjnej lub oceny kalibracji, szczególnie w różnych kontekstach leczenia.
Dodatkowo, pojawiające się technologie multi-omics, takie jak mikrobiomica jelitowa i metabolomika, oferują nowe spojrzenie na patogenezę choroby i odpowiedź na leczenie. Występowanie i rozwój CD są ściśle powiązane z zaburzeniami równowagi mikrobioty jelitowej i produktów metabolicznych. Nasz model, oparty wyłącznie na danych klinicznych i laboratoryjnych, nie uwzględnia kompleksowych danych omicznych, potencjalnie pomijając kluczowe czynniki wpływające na wyniki leczenia.
Przyszłe badania powinny przeprowadzić wieloośrodkowe badania współpracujące w celu rozszerzenia wielkości i różnorodności próby, zmniejszając błąd selekcji i poprawiając możliwość uogólnienia. Należy ustanowić standardowe protokoły zbierania danych, aby poprawić kontrolę jakości danych. Integracja danych multi-omics pozwoli na bardziej kompleksowy i precyzyjny model predykcyjny, identyfikujący dodatkowe biomarkery związane z odpowiedzią na leczenie i dalszą poprawę wydajności modelu.
Podsumowując, model uczenia maszynowego, szczególnie XGBoost, wykazuje silny potencjał do przewidywania odpowiedzi na leczenie adalimumabem u pacjentów z chorobą Crohna. Analiza SHAP dostarcza cennych informacji na temat kluczowych czynników wpływających na remisję kliniczną, które zmieniają się w czasie. Te wyniki mogą pomóc klinicystom w identyfikacji pacjentów, którzy mogą odnieść korzyść z leczenia adalimumabem, oraz w dostosowaniu strategii monitorowania do różnych etapów choroby.
Podsumowanie
Badanie przedstawia innowacyjne zastosowanie uczenia maszynowego w przewidywaniu skuteczności leczenia choroby Crohna adalimumabem. Naukowcy z Drugiego Szpitala Xiangya Uniwersytetu Centralnego Południa przeprowadzili kompleksową analizę na grupie 244 pacjentów, wykorzystując sześć różnych modeli uczenia maszynowego. Najlepsze wyniki osiągnęły modele XGBoost i GBM, z dokładnością przekraczającą 80% w przewidywaniu remisji po 12 tygodniach leczenia. Analiza SHAP wykazała, że kluczowymi markerami prognostycznymi są kalprotektyna kałowa i białko C-reaktywne w początkowej fazie leczenia, podczas gdy hemoglobina zyskuje na znaczeniu w dłuższej perspektywie. Badanie podkreśla także istotną rolę stanu odżywienia pacjenta, mierzonego poprzez BMI i poziom albuminy. Wyniki otwierają drogę do bardziej spersonalizowanego podejścia w leczeniu choroby Crohna, choć konieczne są dalsze badania wieloośrodkowe i integracja danych multi-omics dla zwiększenia dokładności predykcji.








