rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability & das „greta“-Paket

18.6.2018 | 6 Minuten Lesezeit

Am 21. und 22. Mai hatte ich die Ehre, an der rOpenSci Unkonferenz in Seattle teilnehmen zu dürfen. Es war ein großartiges Event, bei dem ich viele tolle Menschen kennenlernen konnte. Hier berichte ich über das Event und das Projekt, an dem ich dort gearbeitet habe: TensorFlow Probability in R & das „greta“-Paket.

rOpenSci

rOpenSci ist eine gemeinnützige Organisation, die eine Reihe von R-Paketen verwaltet und sehr aktiv den Gemeinschaftsgeist rund um die R-Welt fördert. Ihre zentralen Werte sind offene und reproduzierbare Forschung, Daten offen zugänglich zu machen, einfach zu bedienende Tools für Datenanalysen zu schaffen und all dies einer großen Anzahl an Menschen zugänglich zu machen.

rOpenSci Unkonferenz

Die jährliche Unkonferenz trägt dazu bei, eine welt- und diversitätsoffene Infrastruktur für die Community zu schaffen. Bei der Konferenz treffen etwa 60 eingeladene Gäste aus der ganzen Welt zusammen, um an kleinen Projekten zu arbeiten, die derzeit für die R-Community relevant sind. Ideen für Projekte werden in den Wochen vor der Unkonferenz auf GitHub gesammelt und diskutiert, aber die endgültige Entscheidung, an welchen Projekten gearbeitet wird, wird von den Teilnehmern am ersten Morgen der Unkonferenz getroffen.

Die diesjährige rOpenSci Unkonferenz fand im Microsoft-Reactor in Seattle statt.

Das gesamte Organisationsteam – allen voran Stefanie Butland – hat diese Veranstaltung hervorragend organisiert. Die gesamte Gruppe trug dazu bei, dass der Spirit der Unkonferenz für alle von Anfang an sehr offen und inklusiv war, von den Alteingesessenen bis hin zu Neulingen.

Wir waren eine ziemlich heterogene Gruppe von Sozialwissenschaftlern, Bioinformatikern, Ökologen, Historikern, Data Scientisten, Entwicklern, Mitarbeitern von Google, Microsoft und RStudio sowie R-Enthusiasten aus vielen anderen Bereichen. Einige Leute kannten sich bereits, viele kannten sich von Twitter, den R-Ladies oder anderen Online-Communities, aber die meisten von uns (einschließlich mir) hatten sich noch nie persönlich getroffen. Deshalb wurde der offizielle Teil der Unkonferenz am Montagmorgen mit einigen „Eisbrechern“ begonnen: Stefanie stellte eine Frage oder machte eine Aussage und wir positionierten uns entsprechend unserer Antwort im Raum und diskutierten mit den umstehenden Menschen. Beginnend mit „Seid ihr ein Hunde- oder Katzenmensch?“ und abschließend mit „Ich kenne meinen Platz in der R-Community“, hatten wir alle schnell viel zu diskutieren – eine großartige Möglichkeit, viele der Leute kennenzulernen, mit denen wir die nächsten zwei Tage verbringen würden!

Es war toll, mit so vielen talentierten und motivierten Menschen zusammenzuarbeiten, die meine Leidenschaft für die Sprache R teilen – besonders weil sich die Mehrheit der aktiven R-Community im pazifischen Nordwesten und in Kalifornien befindet. Es war eine ganz neue Erfahrung, mit anderen Leuten an einem R-Projekt zusammenzuarbeiten und ich war mehr als begeistert!

Unser TensorFlow Probability / greta-Projekt

Während der 2-tägigen Unkonferenz wurde an vielen interessanten, nützlichen und coolen Projekten gearbeitet: hier ist die komplette Liste mit Links zu den einzelnen Projekten auf GitHub. )

Die Gruppe, der ich beigetreten bin, wollte ursprünglich TensorFlow Probability in R integrieren.

TensorFlow Probability is a library for probabilistic reasoning and statistical analysis in TensorFlow. As part of the TensorFlow ecosystem, TensorFlow Probability provides integration of probabilistic methods with deep networks, gradient-based inference via automatic differentiation, and scalability to large datasets and models via hardware acceleration (e.g., GPUs) and distributed computation.
https://github.com/tensorflow/probability

Letztendlich haben wir – das waren Michael Quinn, David Smith, Tiphaine Martin, Matt Mulvahill und ich – mit dem R-Paket greta gearbeitet, das ähnliche Funktionalitäten wie TensorFlow Probability bietet. Wir haben einige der Beispiele aus den Tutorials der TensorFlow Probability Bibliothek in greta erstellt und einige zusätzliche Beispiele entwickelt , die zeigen, wie man greta verwenden kann.

Was ist greta?

greta ist ein R-Paket, das von Nick Golding für die Implementierung von Markov-Chain-Monte-Carlo-(MCMC-)Modellen, z. B. Hamiltonian Monte Carlo (HMC), entwickelt wurde. Es bietet eine Reihe von Funktionen, die das Definieren dieser Modelle erleichtern, insbesondere für Bayesian-Statistiken (ähnlich wie Stan).

greta lets us build statistical models interactively in R, and then sample from them by MCMC.
https://greta-dev.github.io/greta/get_started.html#how_greta_works

Googles TensorFlow wird als Backend zur Berechnung der definierten Modelle verwendet. Da TensorFlow für große Modelle optimiert wurde und auch Multi-Core- und GPU-Berechnungen unterstützt, ist greta besonders effizient und nützlich für die Arbeit mit komplexen Modellen. Da TensorFlow ursprünglich kein R-Paket ist, verwendet greta die reticulate und tensorflow Pakete von RStudio, um eine Verbindung mit dem TensorFlow-Backend herzustellen. Auf diese Weise können wir mit allen TensorFlow-Funktionen direkt von R aus arbeiten.

Wie funktioniert greta?

Dies ist das minimale Arbeitsbeispiel des linear gemischten Modells, das wir mit greta entwickelt haben und auf einem Beispiel eines TensorFlow Probability Jupyter Notebooks basiert. Das vollständige Beispiel mit Erklärungen ist hier zu finden.

library(greta)

# data
N <- letters[1:8]
treatment_effects <- c(28.39, 7.94, -2.75 , 6.82, -0.64, 0.63, 18.01, 12.16)
treatment_stddevs <- c(14.9, 10.2, 16.3, 11.0, 9.4, 11.4, 10.4, 17.6)

# variables and priors
avg_effect <- normal(mean = 0, sd = 10)
avg_stddev <- normal(5, 1)
school_effects_standard <- normal(0, 1, dim = length(N))
school_effects <- avg_effect + exp(avg_stddev) * school_effects_standard

# likelihood
distribution(treatment_effects) <- normal(school_effects, treatment_stddevs)

# defining the hierarchical model
m <- model(avg_effect, avg_stddev, school_effects_standard)

## greta model
plot(m)

Der Haupttyp von Objekten, mit denen in greta gearbeitet wird, ist der greta Array. Man kann greta Arrays neu erstellen oder andere R-Objekte, wie Data Frames, in greta Arrays konvertieren. greta Arrays sind im Grunde eine Liste mit einem Element: ein R6-Klassen-Objekt mit einem Knoten + Daten, Operationen oder Variablen. Auf diese Weise nutzt greta die graphenbasierte Organisation der Modellierung. Jeder Knoten in unserem Modellgraphen stammt von einem greta Array und verbindet somit Knoten, Variablen, Daten und Operationen, um einen gerichteten azyklischen Graphen (DAG) zu erzeugen, der das Modell definiert, wenn die model() Funktion aufgerufen wird.

TensorFlow Probability

TensorFlow Probability ist kein Teil des TensorFlow-Kernpakets, weshalb wir das tensorflow-R-Paket nicht nutzen konnten. Stattdessen haben wir jedoch das reticulate-Paket genutzt, um Python-Module (alias Bibliotheken) in R zu importieren und dort zu benutzen. Auf diese Weise konnten wir die ursprünglichen Funktionen aus der tensorflow_probability Python-Bibliothek in R verwenden.
Zum Beispiel konnten wir so mit den Edward2-Funktionalitäten von TensorFlow Probability arbeiten.

Edward is a Python library for probabilistic modeling, inference, and criticism. It is a testbed for fast experimentation and research with probabilistic models, ranging from classical hierarchical models on small data sets to complex deep probabilistic models on large data sets. Edward fuses three fields: Bayesian statistics and machine learning, deep learning, and probabilistic programming. […] Edward is built on TensorFlow. It enables features such as computational graphs, distributed training, CPU/GPU integration, automatic differentiation, and visualization with TensorBoard. http://edwardlib.org/

Dankesworte am Schluss

Ein großes Dankeschön geht an mein tolles greta-Team und an rOpenSci – insbesondere an Stefanie Butland – für die Organisation eines so wunderbaren Events!
Ebenfalls geht ein großes Danke an alle Sponsoren, die es mir ermöglicht haben, in den pazifischen Nordwesten zu fliegen und an der Unkonferenz teilzunehmen!

A sincere thank you to all participants in #runconf18
This thread?includes links to all project repos: https://t.co/2PhAz4zSuK #rstats pic.twitter.com/8SICcWkQ0v
— rOpenSci (@rOpenSci) May 25, 2018

—

Dieser Artikel ist im Original auf meinem privaten Blog erschienen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Shirin Elsinghorst

Topic Lead Daten- & KI-Strategieberatung

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

In unseren bisherigen Benchmarks hat DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertroffen. Doch reine Performancevergleiche übersehen eine entscheidende Frage: Was passiert, wenn Sie von lokaler DuckDB-Entwicklung in eine...

MotherDuck
Data
Big Data
Data Science

10.2.2026 | 6 Minuten Lesezeit

Niklas Niggemann

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Update 02.02.26 – Nach hilfreichen Hinweisen des Polars-Teams auf LinkedIn haben wir unser Benchmark-Setup um eine Polars-Konfiguration erweitert, bei der Async erzwungen wird. Dies wird im Artikel näher erläutert. Unser vorheriger Benchmark verglich...

MotherDuck
Data Science
Data

20.1.2026 | 14 Minuten Lesezeit

Niklas Niggemann

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

Die erwarteten Wertbeiträge von Daten und KI sind groß – McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Gleichzeitig berichten viele Unternehmen, mit denen wir sprechen, von ähnlichen Herausforderungen. Und dies best...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 6 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

DuckDB vs. DataFrame Bibliotheken

Hinweis: Der folgende Artikel wurde auf Englisch erstellt und nachträglich maschinell auf Deutsch übersetzt. Update 10.12.25 – Nach hilfreichen Hinweisen von Polars-Entwickler Thijs Nieuwdorp nach der ersten Veröffentlichung dieses Artikels konnten ...

MotherDuck
Data
Data Science
Python
Datenbank

1.12.2025 | 10 Minuten Lesezeit

Niklas Niggemann

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

Mit Applied Data Products zum datengetriebenen Unternehmen

In den letzten Jahren ist der Hype um den Wert von Daten kontinuierlich gestiegen. Gleichzeitig sind eine Vielzahl von Konzepten und Methoden aufgekommen, wie man als Unternehmen "datengetrieben" werden kann. Vom strategischen Top-Management bis zum ...

Agilität
Big Data
Data
Produktmanagement
Digitalisierung
Data Science
Business Intelligence

18.5.2024 | 8 Minuten Lesezeit

Dr. Florian Rademacher

Stephan Hochhaus

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability & das „greta“-Paket

rOpenSci

rOpenSci Unkonferenz

Unser TensorFlow Probability / greta-Projekt

Was ist greta?

Wie funktioniert greta?

TensorFlow Probability

Dankesworte am Schluss

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

DuckDB vs. DataFrame Bibliotheken

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

Mit Applied Data Products zum datengetriebenen Unternehmen

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Jetzt für unseren Newsletter anmelden