Źródła dużych zbiorów danych w medycynie

by Kevin Hwang, MD, MPH; Recenzent Richard N. Fogoros, MD

Prostą definicją dużych zbiorów danych w medycynie jest "całość danych związanych z opieką zdrowotną pacjenta i jego dobrostanem" (Raghupathi 2014). Ale czym dokładnie są te typy danych i skąd one pochodzą?

Poniżej przedstawiono szeroki przegląd rodzajów i źródeł dużych danych, które mogą zainteresować dostawców usług medycznych, badaczy, płatników, decydentów i przedstawicieli branży.

Kategorie te nie wykluczają się nawzajem, ponieważ te same dane mogą pochodzić z różnych źródeł.

Lista ta również nie jest wyczerpująca, ponieważ praktyczne zastosowanie analityki dużych zbiorów danych z pewnością nadal będzie się rozszerzać.

Systemy informacji klinicznej

Są to tradycyjne źródła danych klinicznych, do których przyzwyczajeni są pracownicy służby zdrowia.

Elektroniczne zapisy dotyczące zdrowia (EHR) zbierają, przechowują i wyświetlają informacje, takie jak dane demograficzne, historia choroby, aktywne problemy medyczne, szczepienia, alergie, leki, parametry życiowe, wyniki badań laboratoryjnych i radiologicznych, sprawozdania z patologii, notatki z postępów opracowane przez służby zdrowia dostawców, a także dokumenty administracyjne i finansowe
Elektroniczna dokumentacja medyczna (EMR) nie jest identyczna z EHR i zwykle dotyczy danych przechowywanych przez konkretnego lekarza.
Wymiana informacji o zdrowiu służy jako centrum pomiędzy różnymi systemami informacji klinicznej

Rejestry pacjentów, utrzymywane przez organizacje opieki zdrowotnej na własnych pacjentach, są często powiązane z EHR. Inne rejestry śledzą szczepienia, raka, traumę i inne kwestie zdrowia publicznego w szerszej skali geograficznej.

Portale pacjentów umożliwiają pacjentom dostęp do osobistych informacji dotyczących zdrowia przechowywanych w EHR organizacji opieki zdrowotnej. Niektóre portale pacjentów umożliwiają również użytkownikom pobieranie wkładów na receptę i wymianę bezpiecznych wiadomości elektronicznych z zespołem opieki zdrowotnej.

W klinicznych hurtowniach danych gromadzone są dane o pacjentach z wielu klinicznych systemów informacji, takich jak EHR i inne wymienione powyżej źródła

Dane roszczeń od płatników

Płatnicy publiczni (np. Medicare) i prywatni płatnicy mają duże repozytoria danych o odszkodowaniach na swoich beneficjentów. Niektórzy ubezpieczyciele oferują teraz zachęty do dzielenia się swoimi danymi zdrowotnymi.

Badania naukowe

Bazy danych badań zawierają informacje o uczestnikach badania, eksperymentalnych metodach leczenia i wynikach klinicznych. Duże badania są zwykle sponsorowane przez firmy farmaceutyczne lub agencje rządowe. Zastosowanie spersonalizowanej medycyny ma na celu dopasowanie indywidualnych pacjentów do skutecznych terapii, w oparciu o wzorce w danych z badań klinicznych.

Takie podejście wykracza poza stosowanie zasad medycyny opartej na dowodach, za pomocą których podmiot świadczący opiekę zdrowotną określa, czy pacjent ma wspólne cechy (np. Wiek, płeć, rasę, stan kliniczny) z uczestnikami badania. Przy dużych analizach danych możliwe jest wybranie leczenia opartego na znacznie bardziej szczegółowych informacjach, takich jak profil genetyczny raka pacjenta (patrz poniżej).

Systemy wspomagania decyzji klinicznych (CDSS) również rozwijają się szybko i obecnie stanowią dużą część sztucznej inteligencji (AI) w medycynie.

Wykorzystują dane pacjentów, aby pomóc lekarzom w podejmowaniu decyzji i często łączą się z EHR.

Genetyczne bazy danych

Repozytorium ludzkich informacji genetycznych gromadzi się w szybkim tempie. Od czasu ukończenia projektu genomu ludzkiego w 2003 r. Koszt sekwencjonowania ludzkiego DNA zmniejszył się o milion razy. Projekt Personal Genome Project (PGP), zainicjowany w 2005 roku przez Harvard Medical School, ma na celu sekwencjonowanie i publikowanie kompletnych genomów 100 000 ochotników z całego świata. Sam PGP jest doskonałym przykładem dużego projektu danych ze względu na samą objętość i różnorodność danych.

Osobisty genom zawiera około 100 gigabajtów danych. Oprócz sekwencjonowania genomów, PGP zbiera również dane z EHR, ankiet i profili mikrobiomów.

Wiele firm oferuje bezpośrednie sekwencjonowanie genetyczne dla zdrowia, cech osobowości i farmakogenetyki na zasadach komercyjnych.

Te dane osobowe można podporządkować analizom dużych zbiorów danych. Na przykład 23andMe zaprzestało oferowania nowych raportów genetycznych dla nowych klientów od 22 listopada 2013 r., Aby spełnić wymogi Amerykańskiej Agencji ds. Żywności i Leków. Jednak w 2015 r. Firma zaczęła ponownie oferować określone składniki testosteryczne do badania śliny genetycznej, tym razem za zgodą FDA.

Rejestry publiczne

Rząd prowadzi szczegółową dokumentację wydarzeń związanych ze zdrowiem, takich jak imigracja, małżeństwo, narodziny i śmierć. Spis ludności Stanów Zjednoczonych zbierał ogromne ilości informacji co 10 lat od 1790 roku. Strona statystyczna spisu ludności liczyła 370 miliardów komórek od 2013 roku, z około 11 miliardami więcej dodawanych rocznie.

Wyszukiwania w Internecie

Informacje wyszukiwane w Internecie zebrane przez Google i innych dostawców usług wyszukiwania w Internecie mogą dostarczyć wglądów w czasie rzeczywistym dotyczących zdrowia populacji. Jednak wartość dużych zbiorów danych z wyszukiwarek internetowych można poprawić, łącząc je z tradycyjnymi źródłami danych dotyczących zdrowia.

Media społecznościowe

Facebook, Twitter i inne platformy mediów społecznościowych generują szeroką gamę danych przez całą dobę, dając widok na lokalizacje, zachowania zdrowotne, emocje i interakcje społeczne użytkowników. Zastosowanie dużych danych społecznościowych do zdrowia publicznego zostało określone jako cyfrowe wykrywanie chorób lub epidemiologia cyfrowa. Twitter, na przykład, został wykorzystany do analizy epidemii grypy wśród ogólnej populacji.

Projekt World Well-Being, który rozpoczął się na University of Pennsylvania, jest kolejnym przykładem studiowania mediów społecznościowych w celu lepszego zrozumienia ludzkiego doświadczenia i zdrowia. Projekt skupia psychologów, statystyków i informatyków, którzy analizują język używany podczas interakcji online, na przykład przy pisaniu aktualizacji statusu na Facebooku i Twitterze. Naukowcy obserwują, w jaki sposób język użytkowników odnosi się do ich zdrowia i szczęścia. Postępy w przetwarzaniu języka naturalnego i uczeniu maszynowym pomagają w ich staraniach. Niedawna publikacja z Uniwersytetu Pensylwanii przyjrzała się sposobom przewidywania chorób psychicznych poprzez analizę mediów społecznościowych. Okazuje się, że objawy depresji i inne schorzenia psychiczne można wykryć, studiując nasze korzystanie z Internetu. Naukowcy mają nadzieję, że w przyszłości metody te będą w stanie lepiej identyfikować i pomagać osobom z grup ryzyka.

Internet przedmiotów (IoT)

Ogromne oddziały informacji związanych ze zdrowiem są również gromadzone i przechowywane na urządzeniach mobilnych i domowych .

Smartfony : Tysiące aplikacji mHealth zbiera informacje na temat aktywności fizycznej użytkownika, spożycia, wzorców snu, emocji i innych parametrów. Rodzime aplikacje na telefony komórkowe (np. GPS, e-mail, SMS-y) mogą również dostarczyć wskazówek na temat stanu zdrowia danej osoby.
Poręczne monitory i urządzenia: krokomierze, akcelerometry, okulary, zegarki i chipy osadzone pod skórą również zbierają informacje związane ze zdrowiem i mogą je również wysyłać do chmury.
Urządzenia telemedyczne umożliwiają pracownikom służby zdrowia monitorowanie parametrów pacjentów, takich jak ciśnienie krwi, częstość akcji serca, częstość oddechów, natlenienie, temperatura, zapis EKG i waga.

Transakcje finansowe

Transakcje kartami kredytowymi pacjentów są zawarte w modelach predykcyjnych używanych przez Carolinas HealthCare System w celu identyfikacji pacjentów, którzy są narażeni na ryzyko powrotu do szpitala. Oparta na Charlotte instytucja opieki zdrowotnej wykorzystuje duże dane do dzielenia pacjentów na różne grupy, na przykład na podstawie choroby i położenia geograficznego.

Skutki etyczne i związane z prywatnością

Należy podkreślić, że w niektórych przypadkach mogą wystąpić ważne konsekwencje etyczne i prywatności podczas gromadzenia i dostępu do danych w opiece zdrowotnej. Nowe źródła dużych zbiorów danych mogą poprawić naszą wiedzę na temat wpływu poszczególnych osób i zdrowia populacji, jednak należy dokładnie rozważyć i monitorować różne rodzaje ryzyka. Uznano również, że dane, które wcześniej uznano za anonimowe, można ponownie zidentyfikować. Na przykład profesor Latanya Sweeney z Laboratorium Prywatności Danych Harvardu przeanalizował 1 130 ochotników zaangażowanych w projekt Personal Genome. Ona i jej zespół byli w stanie poprawnie wymienić 42 procent uczestników na podstawie informacji, które udostępnili (kod pocztowy, data urodzenia, płeć). Ta wiedza może zwiększyć naszą świadomość potencjalnych zagrożeń i pomóc nam podejmować lepsze decyzje dotyczące udostępniania danych.

> Źródła:

> Conway M, O'Connor D. Media społecznościowe, duże zbiory danych i zdrowie psychiczne: obecne postępy i konsekwencje etyczne. Aktualna opinia w psychologii 2016; 9: 77-82.

> Fernandes L, O'Connor M, Weaver V. Duże dane, większe wyniki. Journal of The American Health Information Management Association 2012; 83 (10): 38-43

> Guntuku S, Yaden D, Kern M, Ungar L, Eichstaedt J. Wykrywanie depresji i chorób psychicznych w mediach społecznościowych: przegląd integracyjny . Aktualna opinia w Behavioral Sciences 2017; 18: 43-49.

> Lazer D, Kennedy R, King G, Vespignani A. Przypowieść o Google Flu: Pułapki w Big Data Analysis . Science 2014; 343 (6176): 1203-1205.

> Raghupathi W, Raghupathi V. Duża analiza danych w opiece zdrowotnej: obietnica i potencjalny al. Health Information Science and Systems 2014; 2: 3.

> Sweeney L, Abu A, Winn J. Identyfikacja uczestników w projekcie osobistego genomu według nazwy . Uniwersytet Harwardzki. Data Privacy Lab. Biała księga 1021-1. 24 kwietnia 2013 r.