In dieser Episode ist wieder Dr. Lukas Lang zu Gast. Wir sprechen über Data Science und Machine Learninig (auch »artificial intelligence« genannt). Das ist ein Themenbereich, der sehr viel Potential für unsere Zukunft hat, aber wie alle diese Themenbereiche auch eine Menge an Gefahren, Herausforderungen und Hypes generiert.
Lukas ist ein perfekter Gesprächspartner für dieses Thema, weil er sowohl in der Spitzenforschung tätig war als auch in der industriellen Praxis mit diesen Themen beschäftigt ist. Diese Mischung scheint mir bei komplexen technischen Fragestellungen und Problemen sehr nützlich zu sein.
Lukas hat nach seinem Studium der Informatik eine Promotion im Spezialgebiet Computational Science gemacht. Anschließend war er mehrere Jahre in der universitären Forschung im Bereich der mathematischen Bild- und Datenanalyse tätig, zuletzt an der Universität Cambridge. Seine Arbeit hat Anwendungen in der medizinischen Bildgebung, in der Molekular- und Zellbiologie, und in der Computer Vision.
Derzeit leitet er den Geschäftsbereich »Data Science and AI« eines Spin-Offs des internationalen Industriekonzerns Voestalpine. Sein Team arbeitet an der Umsetzung von Daten-Projekten in der Erzeugung und Verarbeitung von Spezialmetallen, und am Aufbau eines globalen Data Science Programms für die Produktionsstandorte.
Wir haben dieses umfangreiche Thema in zwei Episoden aufgeteilt:
In der ersten Episode beginnen wir das Thema Data Science einzuführen, auch anhand einiger Beispiele, beginnend mit historischen Beispielen sowie Anwendungsfällen der heutigen Zeit. Wir spannen dabei den Bogen von Tycho Brahe und Florence Nightingale bis zu modernen Sprachassistenten und Entscheidungsunterstützung im Militär und zivilen Bereich.
Dann gibt Lukas einen Überblick über wesentliche Prinzipien und Begriffe, die in diesem Zusammenhang immer wieder auftreten, wie Datascience, die Rolle der klassischen Statistik, Modellierung, Visualisierung, EDA, AI, KI, machine learning, multivariate statistik, Datenqualität und vieles mehr.
Wir sprechen dann über die These die seit einiger Zeit im Raum steht, dass man dank Daten und »AI« ja keine Modelle, keine Theorie mehr benötigt — The End of Theory —, sondern einfach aus Daten lernt und das wäre hinreichend für die wissenschaftliche Betrachtung der Welt.
Wir diskutieren dann Möglichkeiten, Geschäftsmodelle und Grenzen von Machine Learning und Data Science. Wer trifft heute überhaupt Entscheidungen und was ist die Rolle und Funktion eines Data Scientists? Sollten Menschen immer das letzt Wort bei wesentlichen Entscheidungen haben? Ist das überhaupt (noch) realistisch? Welche Rolle spielen regulatorische Maßnahmen wie das aktuelle EU-Framework?
In der zweiten Episode werden wir darauf aufbauend die Frage stellen, wie viel der aktuellen Behauptungen in diesem Feld Realität und wie viel Hype ist. Was können wir in der Zukunft zu erwarten — sowohl im positiven wie auch im negativen? Was sind dominierende Forschungsfragen und wo Grenzen liegen, unerwartete Effekte auftreten, und welche ethischen Fragen durch diese neuen Möglichkeiten zu diskutieren.
xkcd Cartoon
Konkret gibt es das Spannungsfeld zwischen Datensparsamkeit und der Idee alles zu sammeln, weil wir das irgendwie in der Zukunft für uns nutzen können. Aber will der Data Scientists überhaupt in Daten untergehen? Führen mehr Daten zu besseren Entscheidungen?
Wir diskutieren wieder anhand konkreter Beispiele für gute und problematische Anwendungen wie predictiver Policing, Mapping und »KI« für militärische Dronenpiloten.
Welche individuelle Verantwortung leiten wir daraus für Techniker ab? Wie geht Lukas selbst mit diesen Herausforderungen um?
Referenzen
Lukas Lang
Persönliche Webseite von Lukas
Andere Episoden
Episode 40: Software Nachhaltigkeit, ein Gespräch mit Philipp Reisinger
Episode 37: Probleme und Lösungen
Episode 32: Überleben in der Datenflut – oder: warum das Buch wichtiger ist als je zuvor
Episode 31: Software in der modernen Gesellschaft – Gespräch mit Tom Konrad
Episode 25:Entscheiden unter Unsicherheit
Episode 19: Offene Systeme – Teil 1 und Episode 20, Teil 2
Episode 6: Messen, was messbar ist?
Fachliche Referenzen
Adhikari, DeNero, Jordan, Interleaving Computational and Inferential Thinking: Data Science for Undergraduates at Berkeley
Melanie Mitchell, Artificial Intelligence: A Guide for Thinking Humans (2020)
Michael I. Jordan, The revolution hasn’t happened yet
Hannah Fry, What data can’t do
Peter Coy, Goodhart’s Law Rules the Modern World. Here Are Nine Examples
Roberts et al., Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans
Antun et al., On instabilities of deep learning in image reconstruction and the potential costs of AI
Use of AI in breast cancer detection: 94% of AI systems evaluated in these studies were less accurate than a single radiologist, and all were less accurate than consensus of two or more radiologists
Lukas Lang, What is Data Science?
Seth Stephens-Davidowitz, Everybody Lies
Evgeny Morozov, To Save Everything, Click here (2014)
Meredith Broussard, Artificial Unintelligence (2018)
Cathy O‘Neill, Weapons of Maths destruction (2017)
Richard David Precht, Künstliche Intelligenz und der Sinn des Lebens (2020)
Jerry Z Muller, The Tyrrany of Metrics (2018)
Joseph Weizenbaum, Computermacht und Gesellschaft (2001)
Margaret Heffernan, Uncharted: How to Map the Future (2021)
Edward Snowden, Permanent Record (2019)
Shoshanna Zuboff, Surveillance Capitalism (2019)
Hartmut Rosa, Unverfügbarkeit (2020)
Duncan J Watts, Everything is obvious, once you know the answer (2011)
Gerd Gigerenzer, Klick: Wie wir in einer digitalen Welt die Kontrolle behalten und die richtigen Entscheidungen treffen - Vom Autor des Bestsellers »Bauchentscheidungen« (2021)
Byung-Chul Han, Im Schwarm, Ansichten des Digitalen (2015)
Marinanne Bellotti, A.I. is solving the wrong problem
Hannah Fry, Hello World: How to be Human in the Age of Algorithms (2018)
Hannah Fry, What Statistics Can and Can't Tell Us About Ourselves, The New Yorker (2019)
David Spiegelhalter, The Art of Statistics: Learning from Statistics (2020)
James, Witten, Hastie & Tibshirani. Introduction to Statistical Learning (2021)
The end of theory: The data deluge makes the scientific method obsolete. Wired 6/2008
Rutherford and Fry on Living with AI: The Biggest Event in Human History
Deep Mind, The Podcast
David Donoho, 50 Years of Data Science, Journal of Computational and Graphical Statistics (2017)
Stuart Russel and Peter Norving, Artificial Intelligence, A Modern Approach, Berkely Textbook (2021)
Michael Roberts et al, Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans, Nature Machine Intelligence (2021)
Neil Thompson, Deep Learning's Diminishing Returns, The Cost of Improvement Is Becoming Unsustainable, IEEE Spectrum (2021)