Optimal estimation: Schätzung von Funktionen

Definition

Bei der Para­me­ter­schät­zung wer­den ver­ein­fa­chen­de Annah­men getrof­fen über den Ursprung beob­ach­te­ter Daten \(l\). Sie gel­ten als erklär­bar durch eine Funk­ti­on \(g(x,z)\), die abhängt von unter ande­rem Para­me­tern \(x\).

Bei der all­ge­mei­nen Schät­zung von Funk­tio­nen wird die­se ver­ein­fa­chen­de Annah­me fal­len­ge­las­sen und die über Daten \(l\) beob­ach­te­te Funk­ti­on \(f\) nicht auf eine para­me­tri­sche Fami­lie beschränkt. Statt­des­sen wird \(f\) als sto­chas­ti­scher Pro­zess auf­ge­fasst — als Men­ge von zu Orten \(t\in T\) zuge­ord­ne­ten und unter­ein­an­der kor­rel­lier­ten Zufallsvariablen.

Relevanz

Durch die­se sto­chas­ti­sche For­mu­lie­rung kön­nen Pro­ble­me for­ma­li­siert und gelöst wer­den, die der nor­ma­len Para­me­ter­schät­zung nicht zugäng­lich sind. Zudem sind sto­chas­ti­sche Pro­zes­se ein fle­xi­bles Funk­ti­ons­mo­dell für \(f\) und erlau­ben die Ana­ly­se von Daten für die kein über­zeu­gen­des para­me­tri­sches Modell der Form \(l=g(x,z)\)  aus äus­se­ren Umstän­den abge­lei­tet wer­den kann.

Abbil­dung 1: Illus­tra­ti­on ver­schie­de­ner qua­dra­ti­scher Model­le \(x_1+x_2z+x_3z^2\) mit drei ver­schie­de­nen Wah­len für den para­me­ter­vek­tor (a). In (b) sind ver­schie­de­nen zufäl­li­gen Aus­prä­gun­gen des­sel­ben sto­chas­ti­schen Pro­zes­ses zu sehen — die Band­brei­te des Ver­hal­tens ist ein­deu­tig grösser.

Typi­sche Fragen

  • Gege­ben Mes­sun­gen \(f(z_1), f(z_2)\), wie gross ist \(f\) an den ande­ren Stel­len \(z\)?
  • Wie hoch ist die Wahr­schein­lich­keit, dass \(f(z_1)\ge 1\)?
  • Gege­ben Mes­sun­gen \(f(z_1),f(z_2)\), wie gross ist \(\int_{0}^{1} f(z) dz\)?
  • Sind die Daten erklär­bar durch einen glat­ten oder einen unre­gel­mäs­sig-scharf­kan­ti­gen Prozess?

Detailerklärung

Han­delt es sich bei den Daten \(l_j, j=1, …, n\) bei­spiels­wei­se um Mes­sun­gen von Roh­stoff­vor­kom­men im Boden an den Orten \( z_j, j=1, …, n\), so sind die Fra­ge­stel­lun­gen alle­samt wich­tig zur Abschät­zung wirt­schaft­li­cher Ren­ta­bi­li­tät eines Rohstoffabbaus.

Tat­säch­lich wur­de das Pro­blem der Inter­po­la­ti­on — Schät­zung aller Funk­ti­ons­wer­te \(f(z)\) auf Basis ein­zel­ner Mes­sun­gen \(l_j=f(z_j), j=1, …, n\) — auch zuerst im Rah­men der Roh­stoff­pro­spek­ti­on sys­te­ma­tisch unter­sucht [1]. Es gibt vie­le Funk­tio­nen \(f\) sodass \(l_j=f(z_j), j=1, …, n\) und so stellt sich die fra­ge nach der gemäss Vor­wis­sen und Daten wahr­schein­lichs­ten Funk­ti­on \(f\).

Abbil­dung 2: Ver­schie­de­ne mög­li­che Funk­tio­nen \(f\), die alle­samt die beob­ach­te­ten Daten \(l_j, j=1, …, n\) inter­po­lie­ren aber ansons­ten völ­lig ande­res Ver­hal­ten aufweisen.

Interpolation: Optimierungsproblem

Das Opti­mie­rungs­pro­blem zur Ablei­tung der wahr­schein­lichs­ten Funk­ti­on \(f\) lautet
 

$$ \begin{align} \min_{f \in \mathcal{H}_K} ~~~& \|f\|_{\mathcal{H}_K}^2 \\ ~~~&\text{s.t.} f(z_j)=l_j ~~~~ j=1, …, n  \end{align}$$

wobei \(\mathcal{H}_K\) ein Funk­ti­ons­raum ist und \(-\|f\|^2_{\mathcal{H}_K}\) die Wahr­schein­lich­keit einer Funk­ti­on \(f\) in die­sem raum angibt. Details die­ser For­mu­lie­rung sind z.B. in [2, p. 111] zu fin­den; rele­vant ist vor allem die Umfor­mu­lie­rung als qua­dra­ti­sches Pro­gramm zur Ermitt­lung von Gewich­ten \(\lambda \in \mathbb{R}^n\) mit \(f(z)=\sum_{j=1}^n\lambda_j l_j\).

$$ \begin{align} \min_{\lambda} ~~~& (1/2)\lambda^TK_{II}\lambda — \lambda^TK_{I} \\ \text{s.t.} ~~~\sum_{j=1}^n \lambda_j =1 \end{align}$$
\(K_{II}\) und \(K_{I}\) sind Matri­zen und Vek­to­ren beinhal­tend die Kor­re­la­ti­ons­struk­tu­ren von \(f\). Sie codie­ren die zugrun­de­lie­gen­den Annah­men über z.B. die Glatt­heit von \(f\). Das Opti­mie­rungs­pro­blem kann mit sol­vern für qua­dra­tic pro­gramming oder per Hand gelöst werden.

Abbil­dung 3: Die durch Lösung des Opti­mie­rungs­pro­b­le­mes aus­ge­ge­be­ne opti­ma­le Schät­zung und die zugrun­de­lie­gen­de Korrelationsstruktur.

Korrelationsstruktur

Die Kor­re­la­ti­ons­ma­tri­zen geben an, wie stark die Wer­te \(f(z_1), f(z_2)\) an unter­schied­li­chen Posi­tio­nen \( (z_1, z_2)\) mit­ein­an­der kor­re­liert sind: Der Wert von \(0\) für \(z_1=0\) und \(z_2=1\) zeigt dem­nach an, dass zwi­schen \(f(0)\) und \(f(1)\) kein nen­nens­wer­ter Zusam­men­hang besteht. Sind kei­ne belast­ba­ren Vor­an­nah­men über die Kor­re­la­ti­ons­struk­tu­ren mög­lich, dann kann sie auch aus den Daten abge­lei­tet wer­den. Dies ist eben­falls ein opti­ma­les Schätz­pro­blem und kann hier ein­ge­se­hen werden.

Abstrakte Splines

Daten zu inter­po­lie­ren ist of hilf­reich. Nicht immer aller­dings ent­ste­hen Daten aus punk­tu­el­len Mes­sun­gen, sind feh­ler­frei, oder hin­sicht­lich ihrer Kor­re­la­ti­ons­struk­tur bekannt. Das momen­tan all­ge­meins­te, immer noch effi­zi­ent lös­ba­re Schätz­pro­blem lau­tet [2, p. 117]

$$ \begin{align} \min_f ~~~& \|Af‑l\|^2_{\mathcal{H}_A}+ \|Bf\|^2_{\mathcal{H}_B}& \\ &f : \text{ Gesuch­te Funk­ti­on}  && l : \text{ Daten} \\  & A : \text{ Mess­ope­ra­tor} && \mathcal{H}_A : \text{ Funk­tio­nen­raum poten­ti­el­ler Mes­sun­gen} \\ & B : \text{ Ener­gie­ope­ra­tor} && \mathcal{H}_B : \text{ Funk­tio­nen­raum poten­ti­el­ler Ener­gien} \end{align}$$

Lösun­gen für die­se Mini­mie­rungs­pro­ble­me heis­sen abs­trak­te Spli­nes und sie maxi­mie­ren die Wahr­schein­lich­kei­ten der Dis­kre­pan­zen \(Af‑l\) zwi­schen  tat­säch­li­chen und hypo­the­thi­schen Beob­ach­tun­gen sowie die Wahr­schein­lich­keit von \(f\) sel­ber. Der Mess­ope­ra­tor \(A\) bil­det Funk­tio­nen \(f\) auf hypo­the­ti­sche Beob­ach­tun­gen \(Af\) ab und der Ener­gie­ope­ra­tor \(B\) bil­det Funk­tio­nen \(f\) ab auf Grös­sen \(Bf\), deren Wahr­schein­lich­keits­ver­tei­lung bekannt ist.

Anwendungen

Die Lösun­gen enorm vie­ler opti­mal esti­ma­ti­on Pro­ble­me las­sen sich als abs­trak­te Spli­nes dar­stel­len. Ist etwa \(f\) eine zwei­di­men­sio­na­le Funk­ti­on und \(Af\) sind  Lini­en­in­te­gra­le \( (Af)_j= \int_{z_0}^{z_j} f(z) dz\), dann han­delt es sich bei den abs­trak­ten Spli­nes um Lösun­gen für Tomo­gra­phie­pro­ble­me, sie­he Abbildung.

Abbil­dung 4 : Bei der Tomo­gra­phie wer­den nur Gesamt­ein­flüs­se ent­lang von Aus­brei­tungs­we­gen gemes­sen und es soll auf die Ver­tei­lung der indi­vi­du­el­len Effek­te zurück­ge­schlos­sen werden.

Ist hin­ge­gen \(A\) ein­fach der Iden­ti­täts­ope­ra­tor und \(\mathcal{H}_A\) und \(\mathcal{H}_B\) sind Funk­tio­nen­räu­me von Funk­tio­nen ver­schie­de­ner Kor­re­la­ti­ons­struk­tur, dann han­delt es sich bei den abs­trak­ten Spli­nes um Lösun­gen für Signaltrennungsprobleme.

Abbil­dung 5: Eine Signal­über­la­ge­rung \(f_1+f_2\) soll auf­ge­spal­tet wer­den in die ein­zel­nen Signal­kom­po­nen­ten \(f_1\) und \(f_2\). Zur Unter­schei­dung wer­den die ver­schie­de­nen Kor­re­la­ti­ons­struk­tu­ren von \(f_1\) und \(f_2\) verwendet.

Neben die­sen bei­den Bei­spie­len aus der Signal­ver­ar­bei­tung wir die opti­ma­le Schät­zung von Funk­tio­nen auch für vie­le ande­re Zwe­cke ein­ge­setzt. Anwen­dun­gen beinhal­ten die Roh­stoff­pro­spek­ti­on, Bild­ver­ar­bei­tung, Mess­da­ten­aus­wer­tung, die model­lie­rung von Umwelt­phä­no­me­nen betref­fend z.B. epi­de­mio­lo­gi­sche Aus­brei­tungs­vor­gän­ge, Ver­tei­lung von Atmo­sphä­ren­pa­ra­me­tern, geo­lo­gi­sche Eigen­schaf­ten, und Land­nut­zung sowie das Erstel­len von Ersatz­mo­del­len, das kom­pri­mie­ren und Fil­tern von Video­da­ten und vie­les mehr.

Praktisches

Die For­mu­lie­rung und Lösung von Echt­wel­pro­ble­men als abs­trak­te Funk­ti­ons­schät­zungs­pro­ble­me beinhal­tet ver­schie­de­ne Schrit­te. An ers­ter Stel­le steht die her­aus­for­de­rung, eine bestimm­te Auf­ga­be zu iden­ti­fi­zie­ren als lös­bar durch Schät­zung einer Funk­ti­on. Dies ist nicht immer ein­fach. Wei­ter­hin spielt die genaue For­mu­lie­rung und umfor­mung eine wich­ti­ge Rol­le, um die Lös­bar­keit des Opti­mie­rungs­pro­b­le­mes zu gewähr­leis­ten. Strikt gese­hen han­delt es sich bei abs­trak­ten Spli­nes näm­lich um Opti­mie­rungs­pro­ble­me in unend­lich­di­men­sio­na­len Räu­men (Funk­ti­ons­räu­me haben die­se Eigen­schaft typi­scher­wei­se); daher sind cle­ve­re manu­el­le Rech­nun­gen erforderlich.

 Zu guter letzt müs­sen die Kor­re­la­ti­ons­struk­tu­ren der Lösun­gen ent­we­der aus vor­he­ri­gen Daten­grund­la­gen oder auf Basis von Vor­an­nah­men vor­ge­schrie­ben wer­den. Dies erfor­dert Erfah­run­gen in der Model­lie­rung mit sto­chas­ti­schen Pro­zes­sen. Sind die­se drei Her­aus­for­de­run­gen erfolg­reich gemeis­tert, so ist das Resul­tat der Bemü­hun­gen eine aus sto­chas­ti­scher Sicht opti­ma­le Schätzung.

Code & Quellen

Bei­spiel­code: OE_conditional_simulation.py , OE_random_quantities.py , OE_functional_signal_separation.py , OE_simulation_support_funs.py  in unse­rem Tuto­ri­al­fol­der

[1] Cres­sie, N. (1990). The ori­g­ins of kri­ging. Mathe­ma­ti­cal geo­lo­gy, 22, 239–252.

[2] Ber­li­net, A., & Tho­mas-Agnan, C. (2011). Repro­du­cing Ker­nel Hil­bert Spaces in Pro­ba­bi­li­ty and Sta­tis­tics: . Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.