During my time as a mentor of the math working group for gifted middle and high school students, one of the participants asked me for input on a problem they had been working on. He had heard of 1D random walks and had thought bout extending it. Instead of working with a fixed step size, he was wondering what would happen if for each step, the step size was drawn from a uniform distribution from 0 to 1. In particular, they were wondering for any given threshold t > 0, what‘s the expected number of steps n to pass the threshold and does that expectation even exist?
At home, I spent some time thinking about the problem and found a closed formula. I wrote the blog post such that the student could check my reasoning asynchronously between working group meetings and as a basis for further discussion. That‘s also the reason why the blog post is in German.
Einleitung
Ich war bis ca. 2022 einer der Mentoren der Mathe-AG des Life Science Lab des DKFZ in Heidelberg. In der Mathe-AG wird jedes Schuljahr ein (hochschul-)mathematisches Thema mit motivierten Schülerinnen und Schülern behandelt.
Hin und wieder kommen die Teilnehmenden mit eigenen Fragen auf uns zu und die letzte Frage hat mich sehr generdsnipt. Die Problemstellung war die folgende: Wir starten auf dem reellen Zahlenstrahl bei 0 und ziehen eine Zufallszahl x1 gleichverteilt aus dem Intervall [0,1] und addieren sie zu unseren momentanen Position. Dann ziehen wir eine weitere Zufallszahl x2 wie zuvor und addieren diese zu unserer Position. Diesen Vorgang wiederholen wir beliebig oft. Die Frage: Zu einer gegebenen Schranke t>0, was ist die mittlere Anzahl an “Schritten” (also gezogenen Zufallszahlen) bis wir t erreichen? Wie ist das asymptotische Verhalten des Mittelwerts für t→∞?
Wie sich zeigen wird, können wir eine geschlossene Formel für den Mittelwert herleiten und uns damit den beiden Fragen nähern. Zunächst formalisieren wir das Problem, d.h. wir definieren alle Größen als Zufallsvariablen. Danach zeigen wir, dass der gesuchte Mittelwert existiert und leiten eine Formel her. Diese vergleichen wir mit dem simulierten Prozess und, motiviert durch die empirischen Resultate, vereinfachen wir die Formel weiter.
Formalisierung
Wir fixieren eine Schranke t>0. Des weiteren definieren wir für alle i∈N die Zufallsvariablen Xi∼i.i.dU[0,1], wobei wir mit U[0,1] die Gleichverteilung auf dem Interval [0,1] bezeichnen und i.i.d. für ‘independent and identically distributed’, also unabhängig und aus der gleichen Verteilung stammend, steht. Dann erhalten wir unsere Position nach Schritt k∈N als
Sk:=i=1∑kXi=X1+⋯+Xk.
Sk ist auch eine Zufallsvariable und sie folgt einer bekannten Verteilung, nämlich der Irwin-Hall-Verteilung. Das wird später noch wichtig werden.
Als letztes brauchen wir noch den Schritt N , nach dem wir t überschreiten, dieses ist gegeben durch
N:=min{k∈N∣Sk≥t}=n,so dass Sn≥t und Sn−1<t.
Zunächst könnte es passieren, dass Sk<t für alle k∈N. Dann würde unsere Definition von N nicht funktionieren. Damit wir uns nicht um diesen Fall kümmern müssen, können wir zeigen, dass die Wahrscheinlichkeit, dass alle Sk<t sind gleich 0 is. In Formeln bedeutet das
P[S1<t∧S2<t∧…]=!0.
Das Komplement von diesem Ereignis ist, wenn ein k∈N existiert, so dass Sk≥t. Wenn wir zeigen können, dass dieses Ereignis Wahrscheinlichkeit 1 hat, muss das ursprüngliche Ereignis Wahrscheinlichkeit 0 haben.
Dazu können wir das schwache Gesetz der großen Zahlen verwenden (das im Fall von i.i.d. Xi∼U[0,1] erfüllt ist). Dazu definieren wir
Xˉk:=k1i=1∑k(Xi−E[Xi])=k1Sk−21.
Dann existiert für beliebiges ε>0 und beliebiges δ>0 ein k0∈N, so dass
P[−ε<Xˉk<ε]>1−δ
für alle k≥k0. Der Ausdruck −ε<Xˉk<ε kann umgeformt werden zu k(21−ε)<Sk<k(21+ε). Wählen wir nun ε:=41 und k1:=max(2⌈t⌉,k0), dann gilt für alle k≥k1
k(21−ε)=k(21−41)=4k≥44⌈t⌉≥t.
Zusammen mit dem schwachen Gesetz der großen Zahlen erhalten wir
für alle k≥k1, wobei wir bei (1) verwendet haben, dass Sk einer stetigen Verteilung folgt (mit etwas mehr Arbeit sollten wir auch ohne diese Annahme auskommen). Nun war δ>0 beliebig gewählt, d.h. wir finden zu jedem δ ein k∈N, so dass P[Sk≥t]>1−δ. Zusammen erhalten wir
für beliebiges δ>0, was nur für P[S1<t∧S2<t∧…]=0 erfüllt sein kann.
Zähldichte für N
Jetzt, wo wir wissen, dass N wohldefiniert ist, können wir versuchen die Verteilung von N besser zu verstehen. Nach Defnition kann N nur Werte in den natürlichen Zahlen annehmen, deswegen können wir hoffen eine Zähldichte für N zu finden, diese ist (in unserem Fall) gegeben durch
p:N→[0,1],n↦P[N=n].
Nun, verwenden wir die Definition von p und N und erhalten
p(n)=P[N=n]=P[Sn≥t∧Sn−1<t].
Um die Wahrscheinlichkeit auf der rechten Seite zu berechnen, verwenden wir, dass sich die Wahrscheinlichkeit von komplementären Ereignissen zu 1 addieren muss:
1=P[Sn≥t∧Sn−1<t]+P[Sn≥t∧Sn−1≥t]+P[Sn<t∧Sn−1<t]+P[Sn<t∧Sn−1≥t]=P[Sn≥t∧Sn−1<t]+P[Sn−1≥t]+P[Sn<t]+0Aufgelöst, erhalten wir
Als Probe können wir uns überzeugen, dass sich die Zähldichte tatsächlich zu 1 addiert, allerdings ergibt sich das direkt aus der Wohldefiniertheit von N, die wir oben gezeigt haben (dadurch erhalten wir P[Sn<t]→0 für n→∞), und in dem wir S0=0 interpretieren, was zu P[S0<t]=1 führt. Alle anderen Terme fallen weg, da wir eine Teleskopsumme erhalten.
Beachte, dass wir bisher nur das Gesetz der großen Zahlen verwendet haben und dass der Mittelwert der Xi gleich 21 ist. Unsere gesamte Betrachtung gilt damit bisher für beliebige i.i.d. Xi, die einer Verteilung folgen, für die das schwache Gesetz der großen Zahlen gilt und deren Mittelwert positiv (wir müssen nur unser gewähltes ε anpassen) ist. Im nächsten Abschnitt werden wir allerdings Eigenschaften verwenden, die speziell für gleichverteilte Xi gelten.
Der Erwartungswert von N
Für eine diskrete Zufallsvariable über N wie N ist der Erwartungswert gegeben durch den Ausdruck
E[N]=n=1∑∞n⋅p(n).
Allerdings könnte es sein, dass diese Reihe divergiert (also unendlich wird). Als nächstes überzeugen wir uns davon, dass dies nicht der Fall ist.
Wir wollen nun das Quotientenkriterium verwenden, um zu zeigen, dass die Reihe ∑k=1∞ak konvergiert. Dazu müssen wir den Bruch akak+1abschätzen. Betrachten wir die folgende Fallunterscheidung:
Fall 1: Wir nehmen an k ist gerade, d.h. es existiert ein l∈N, so dass k=2l. Dann können wir die Rundungsterme wie folgt ausdrücken
Fall 2: Wir betrachten den Fall, dass k ungerade ist, d.h. es existiert ein l∈N, so dass k=2l+1. Dann können wir die Rundungsterme folgendermaßen ausdrücken
Das bedeutet in beiden Fällen gilt akak+1=k+22tk→∞0 und mit dem Quotientenkriterium ergibt sich, dass die Reihe ∑k=1∞ak (absolut) konvergiert. Damit können wir das Majorantenkriterium verwenden und erhalten, dass ∑k=1∞P[Sk<t] absolut konvergiert.
gilt. Also haben wir eine geschlossene Formel für den Erwartungswert gefunden. Allerdings haben wir das Problem, dass sie immer noch durch eine Reihe gegeben ist, was sich schlecht exakt ausrechnen lässt.
Trotzdem fand ich dies eine gute Stelle, um unsere Formel empirisch zu überprüfen.
Vergleich Simulation vs. Formel
Der Random Walk lässt sich leicht in einer Programmiersprache (z.B. Python) implementieren, so dass wir viele Walks simulieren können, um E[N] zu approximieren. Außerdem können wir die Reihe nach endlich vielen Termen abbrechen (sobald sich der Wert nur noch wenig ändert) und die beiden Werte vergleichen.
Das Ergebnis befindet sich im obigen Plot und wir sehen eine gute Übereinstimmung zwischen Simulation und unserer Formel. Das ist sehr ermutigend. Außerdem sehen wir, dass der Zusammenhang linear (bzw. affin) zu sein scheint mit Steigung ca 2.
Das überzeugte mich, dass es möglich sein sollte die Formel für E[N] weiter zuvereinfachen.
Vereinfachung von E[N]
Wir wissen bereits, dass die Reihe konvergiert und wir sehen, dass die Formel aus zwei Summen besteht. Aufgrund der absoluten Konvergenz dürfen wir die Reihenfolge der Summierung vertauschen. Damit kommen wir tatsächlich zu einer etwas schöneren Formel, nämlich
Für (1) verwenden wir die Konvention dass (ik)=0 für i>k und bei (2) verwenden wir die Reihendefinition der Exponentialfunktion.
Fazit
Damit haben wir eine Formel für den Erwartungswert E[N], die tatsächlich nur noch aus einer endlichen Summe besteht. Leider lässt sich daraus immer noch nicht der ziemlich lineare Zusammenhang ablesen, den der obige Plot suggeriert.
Trotzdem, als ich die Fragestellung das erste Mal gelesen habe, hätte ich nicht erwartet, dass sich überhaupt eine exakte Formel herleiten lässt. Es war ein spannendes kleines Abenteuer für mich und ich bin sehr happy, das sich so weit gekommen bin 🙂
Als nächstes könnten wir versuchen die Formel weiter zu approximieren, um das asymptotische Verhalten zu untersuchen. Eine erste Möglichkeite könnte sein i! durch die Stirlingformel zu approximieren. Allerdings bin ich damit noch nicht weitergekommen. Falls jemand eine Idee hat, würde ich mich freuen davon zu hören.
Weiterhin ist es natürlich sehr gut möglich, dass ich in einer der Argumentationen einen Fehler gemacht habe. Auch über gefundene Fehler würde ich mich sehr freuen 😉