Gesundheit

Info-Metriken für die Modellierung und Inferenz mit komplexen und unsicheren Pandemie-Informationen

Als die Welt vor der Möglichkeit von wiederkehrenden Wellen des aktuellen Roman coronavirus-Pandemie, ist es wichtig, Muster zu erkennen, und die Dynamik konnte genutzt werden, um zu verringern die Zukunft-übertragung, Infektion und Tod Preisen. In diesem Stadium der Pandemie, Daten über die Krankheit-Muster und Dynamik werden, die sich aus fast allen Ländern der Welt. Unterschiede zwischen den Ländern im Hinblick auf coronavirus-Infektion raten, der Gesundheitspolitik, der sozialen Struktur, die Normen, die Gesundheit, die Umwelt, das Klima und andere Faktoren bieten uns die Daten zur Untersuchung der Auswirkungen von verschiedenen zugrunde liegenden Faktoren und der Politik auf COVID-19 übertragung, Infektion und Tod Preisen.

Trotz der Tatsache, dass Millionen infiziert wurden und Hunderttausende gestorben sind, von COVID-19 die verfügbaren Informationen sind noch unzureichend für die Erreichung präzise Rückschlüsse und Vorhersagen. Dies ist, weil die verfügbaren Daten zu den einzelnen Patienten sind sehr begrenzt, die Variablen, die von Interesse sind hoch korreliert, und eine große Unsicherheit umgibt den zugrunde liegenden Prozess. Darüber hinaus, obwohl die Sterblichkeit von COVID-19 ist hoch im Vergleich zu anderen Infektionskrankheiten, von der eine abgeleitete Sicht, es ist noch sehr klein, da die Anzahl der Todesfälle, bezogen auf die, die nicht sterben, ist extrem klein. Als Ergebnis, werden die Beobachtungen in den Schwanz des überlebens Wahrscheinlichkeitsverteilung. Kurz gesagt, sind die verfügbaren Daten für die Analyse von COVID-19 sind die komplexen, sich ständig wandelnden und schlecht erzogen. Herleitung und Modellierung mit solchen Daten und Ergebnisse in ein Kontinuum von Erklärungen und Vorhersagen. Wir brauchen, um eine Modellierung und Schlussfolgerungen der Ansatz, der Ertrag mit den geringsten Vorurteilen Inferenz und Vorhersage. Leider, traditionelle Ansätze zu verhängen starke Annahmen und Strukturen, von denen die meisten falsch sind oder nicht überprüft werden kann—was zu voreingenommen, instabil und fehlgeleiteten Schlussfolgerungen und Vorhersagen. Informationen Theorie bietet eine Lösung. Es bietet eine rationale Folgerung Rahmen für den Umgang mit mathematisch underdetermined Probleme, ermöglicht es uns zu erreichen, die am wenigsten voreingenommene Schlüsse ziehen.

Ein Informations-theoretischer Ansatz—speziell, info-Metriken—liegt an der Kreuzung der Informationstheorie, statistische Inferenz, Entscheidungsfindung unter Unsicherheit, und Modellierung. In diesem Rahmen alle Informationen eingibt, die als Nebenbedingungen sowie die Unsicherheit innerhalb einer constrained optimization setup, und die Entscheidung, die Funktion ist eine Informations-theoretische ein. Diese Entscheidung-Funktion definiert ist, die gleichzeitig als Entitäten von Interesse—sagen die Patienten “ überlebens-Wahrscheinlichkeiten—und die Unsicherheit, mit der die Einschränkungen. Das framework erweitert die maximum-Entropie-Prinzip von Jaynes, was nutzt die Shannon-Entropie als die Entscheidung, die Funktion, für Probleme, die umgeben sind mit viel Unsicherheit verbunden. Info-Metriken hat klare parallelen mit eher traditionellen Ansätzen, in denen die gemeinsame Auswahl der Informationen verwendet werden (innerhalb der Optimierung, Einstellung) und eine bestimmte Entscheidung-Funktion bestimmen einer likelihood Funktion. Die allumfassende Rolle des constrained optimization sorgt dafür, dass die info-Metriken-framework eignet sich für die Erstellung und Validierung von neuen Theorien und Modellen, unter Verwendung aller Arten von Informationen. Es ermöglicht uns auch zum testen von Hypothesen über konkurrierende Theorien über die kausalen Mechanismen. Für bestimmte Probleme, die herkömmlichen maximum-likelihood ist ein Spezialfall des info-Metriken.

Die info-metrics-Ansatz ist gut geeignet, um den Umgang mit den komplexen und unsicheren cross-country-COVID-19-Pandemie Daten, insbesondere der relativ kleinen Stichprobe von detaillierten Daten, hohe Korrelationen in den Daten und die Beobachtungen in den Schwanz der Verteilung. Für diese Analyse entwickelten wir ein discrete-choice, binäre (wiederhergestellt/gestorben) – Modell zu schließen, die Verbindung zwischen der zugrunde liegenden Landes-Ebene Faktoren und Tod. Das Modell kontrolliert für Alter, Geschlecht, und ob das Land hatte die universal-Impfung gegen Masern und Hepatitis B. Diese Informationen-theoretische Ansatz erlaubt uns auch, eine Ergänzung der bestehenden Daten mit priors, wurden aus dem Tod Häufigkeit (nach Alter und Geschlecht) von Personen, die infiziert waren mit Schweren Akuten Respiratorischen Syndroms (SARS).

Mithilfe von Daten aus zwanzig Ländern veröffentlicht auf dem public-server am April 24, 2020, unsere Studie ergab eine Anzahl von Land-level-Faktoren mit einem signifikanten Einfluss auf die überlebensrate der COVID-19. Einer von diesen ist ein Land in der Vergangenheit oder Gegenwart universal-TB (BCG -) Impfung. Eine weitere ist die Luftverschmutzung die Sterberate im Land. Einige quantifizierte Ergebnisse (nach Alter—die x-Achse und Geschlecht) in der folgenden Abbildung gezeigt. Die linke Tafel zeigt die vorhergesagten Tod bedingte Wahrscheinlichkeit auf eine universal-BCG-Impfung. Es gibt drei Universelle Impfung Möglichkeiten: Länder, die Sie nie hatte (sagen wir, die Vereinigten Staaten), dass momentan haben Sie (sagen wir, auf den Philippinen), oder hatte es in der Vergangenheit (sagen wir, Australien). Die enorme Auswirkung auf die überlebensrate, über Jahrhunderte, ein universal BCG-Impfung, ist klar. Die Rechte Tafel zeigt die Wahrscheinlichkeit zu sterben, abhängig Luftverschmutzung Tod—die Zahl der Todesfälle zurückzuführen auf die gemeinsame Wirkung von Haushalts-und ambient air pollution in einem Jahr pro 100.000 Einwohner. Die durchgehende Linie spiegelt die 90th-Perzentile von Umweltverschmutzung. Die gestrichelte Linie spiegelt den 10% – Perzentil der Verschmutzung.

Der gleiche Rahmen kann verwendet werden für die Modellierung aller anderen Pandemie-bezogene Probleme, auch unter viel Unsicherheit und sich entwickelnden, komplexen Daten. Beispiele sind bedingte Markov-Prozesse, dynamische Systeme, und Systeme, entwickeln sich gleichzeitig. Die info-Metriken-framework ermöglicht uns die Konstruktion von Theorien und Modellen und zum ausführen konsistente Rückschlüsse und Prognosen mit allen Arten von Informationen und Unsicherheit. Natürlich, jedes problem ist anders und fordert seine eigene information und die Struktur, aber die info-Metriken-framework bietet uns mit den Allgemeinen logischen Grundlagen und Werkzeuge für die Annäherung an alle folgernd Probleme. Es erlaubt uns auch zu integrieren, Prioren und führt uns in Richtung auf eine korrekte Angabe der Randbedingungen—die Informationen, die wir haben und nutzen—was ist eine nicht-triviale problem.

Also sollten wir immer mit info-Metriken? Um diese Frage beantworten, ist es notwendig zu vergleichen info-Metriken mit anderen Methoden der policy-Analyse und kausale Inferenz. Alle schlussfolgernde Methoden zwingen, Entscheidungen aufzuerlegen, die Strukturen, und erfordern Annahmen. Mit komplexen und schlecht erzogene Pandemie Daten, mehr Annahmen benötigt werden. Zusammen mit den Daten verwendet, diese auferlegten Annahmen bestimmen die abgeleitete Lösungen. Die Annahmen und Strukturen gehören die likelihood Funktion, die Entscheidung, die Funktion und andere parametrische (oder sogar nicht-parametrischen) Annahmen über die funktionale form oder Einschränkungen verwendet. Der Grund dafür ist, die ohne diese zusätzliche Informationen, alle Probleme werden unter-bestimmt. Eine logische Art und Weise zu vergleichen, verschiedene indirekte Ansätze (klassische und Bayes ‚ sche), insbesondere in Bezug auf die komplexen und schlecht erzogene Pandemie-Daten innerhalb einer constrained optimization setup. So, der Vergleich ist auf einer fairen basis, wie wir die Informationen, die in jedem Ansatz.3 Aber bei so einem ausführlichen Vergleich, einschließlich anderer Ansätze, wie Agenten-basierte Modelle (ABM), verdient seinen eigenen Papier-und außerhalb um den Umfang dieses Aufsatzes. Hier, ich weisen auf zwei grundlegende Entscheidungen, die wir treffen müssen, wenn Sie mit dem info-metrics-Ansatz. Erstens, die Auswahl der constraints; die constraints werden ausgewählt, basierend auf der Symmetrie-Bedingungen oder die Theorie, wir wissen (oder vermuten) über das problem. Sie erfassen die Regeln, das system, das wir studieren. Mathematisch, Sie müssen erfüllt sein, innerhalb der Optimierung. Statistisch gesehen, wenn richtig angegeben, Sie sind ausreichend Statistiken. In der klassischen und Bayes-Verfahren die constraints werden direkt mit der parametrische funktionale form verwendet (z.B. lineare, nichtlineare, etc.). Aber die Angabe des constraints innerhalb der info-Metriken, oder die funktionalen Formen in anderen Ansätzen, ist keineswegs trivial und wirkt sich auf die abgeleitete Lösung. Info-Metriken liefert uns einen Weg, zu verfälschen, die Einschränkungen und weist uns in die Richtung Sie zu verbessern. Diese Entscheidung, zusammen mit der Entscheidung-Funktion bestimmt die genaue funktionelle form der Lösung, oder ist die Inferenz.

Die zweite Wahl, die wir treffen in der info-Metriken-framework baut die constraints stochastic. Dies ist anders als die klassischen maximum-Entropie-Ansatz, bei dem die Einschränkungen müssen, vollkommen zufrieden. Dies ist auch anders als die klassischen Ansätze, bei denen die Wahrscheinlichkeit und funktionale Formen muss perfekt angegeben. Aber es gibt keinen free lunch. Um dies zu erreichen generalisierten framework, welches uns erlaubt, zu modellieren und daraus eine größere Klasse von Problemen, müssen wir die Kosten tragen, die Angabe der Grenzen auf die Unsicherheit. Diese Grenzen sind theoretisch oder empirisch abgeleitet. Aber unabhängig von der Herleitung, es impliziert, dass das, was wir aufgeben, ist die Gewissheit, dass unsere Lösung ist die first-best; vielmehr kann es eine second-best-Lösung, eine Lösung beschreibt eine Ungefähre Theorie oder die Entwicklung einer komplexen Theorie, abgeleitet aus einer Mischung von verschiedenen zugrundeliegenden Elemente und Distributionen. Der Vorteil ist, dass, wenn wir Umgang mit unzureichenden und unsicheren Informationen, es ermöglicht uns, die Rechnung für alle Arten von Unsicherheiten und zu handhaben, schlecht benommen Daten. Es bietet uns eine Möglichkeit, um Rückschlüsse auch unter viel Unsicherheit und schlecht erzogene Daten. Von allen möglichen Methoden, es ist das eine mit der geringsten Menge an Informationen und daher neigt dazu, zu produzieren, die am wenigsten voreingenommene Schlüsse ziehen lassen.