Processing math: 100%

Optimal estimation: Schätzung von Funktionen

Definition

Bei der Para­me­ter­schät­zung wer­den ver­ein­fa­chen­de Annah­men getrof­fen über den Ursprung beob­ach­te­ter Daten l. Sie gel­ten als erklär­bar durch eine Funk­ti­on g(x,z), die abhängt von unter ande­rem Para­me­tern x.

Bei der all­ge­mei­nen Schät­zung von Funk­tio­nen wird die­se ver­ein­fa­chen­de Annah­me fal­len­ge­las­sen und die über Daten l beob­ach­te­te Funk­ti­on f nicht auf eine para­me­tri­sche Fami­lie beschränkt. Statt­des­sen wird f als sto­chas­ti­scher Pro­zess auf­ge­fasst — als Men­ge von zu Orten t\in T zuge­ord­ne­ten und unter­ein­an­der kor­rel­lier­ten Zufallsvariablen.

Relevanz

Durch die­se sto­chas­ti­sche For­mu­lie­rung kön­nen Pro­ble­me for­ma­li­siert und gelöst wer­den, die der nor­ma­len Para­me­ter­schät­zung nicht zugäng­lich sind. Zudem sind sto­chas­ti­sche Pro­zes­se ein fle­xi­bles Funk­ti­ons­mo­dell für f und erlau­ben die Ana­ly­se von Daten für die kein über­zeu­gen­des para­me­tri­sches Modell der Form l=g(x,z)  aus äus­se­ren Umstän­den abge­lei­tet wer­den kann.

Abbil­dung 1: Illus­tra­ti­on ver­schie­de­ner qua­dra­ti­scher Model­le x_1+x_2z+x_3z^2 mit drei ver­schie­de­nen Wah­len für den para­me­ter­vek­tor (a). In (b) sind ver­schie­de­nen zufäl­li­gen Aus­prä­gun­gen des­sel­ben sto­chas­ti­schen Pro­zes­ses zu sehen — die Band­brei­te des Ver­hal­tens ist ein­deu­tig grösser.

Typi­sche Fragen

  • Gege­ben Mes­sun­gen f(z_1), f(z_2), wie gross ist f an den ande­ren Stel­len z?
  • Wie hoch ist die Wahr­schein­lich­keit, dass f(z_1)\ge 1?
  • Gege­ben Mes­sun­gen f(z_1),f(z_2), wie gross ist \int_{0}^{1} f(z) dz?
  • Sind die Daten erklär­bar durch einen glat­ten oder einen unre­gel­mäs­sig-scharf­kan­ti­gen Prozess?

Detailerklärung

Han­delt es sich bei den Daten l_j, j=1, …, n bei­spiels­wei­se um Mes­sun­gen von Roh­stoff­vor­kom­men im Boden an den Orten z_j, j=1, …, n, so sind die Fra­ge­stel­lun­gen alle­samt wich­tig zur Abschät­zung wirt­schaft­li­cher Ren­ta­bi­li­tät eines Rohstoffabbaus.

Tat­säch­lich wur­de das Pro­blem der Inter­po­la­ti­on — Schät­zung aller Funk­ti­ons­wer­te f(z) auf Basis ein­zel­ner Mes­sun­gen l_j=f(z_j), j=1, …, n — auch zuerst im Rah­men der Roh­stoff­pro­spek­ti­on sys­te­ma­tisch unter­sucht [1]. Es gibt vie­le Funk­tio­nen f sodass l_j=f(z_j), j=1, …, n und so stellt sich die fra­ge nach der gemäss Vor­wis­sen und Daten wahr­schein­lichs­ten Funk­ti­on f.

Abbil­dung 2: Ver­schie­de­ne mög­li­che Funk­tio­nen f, die alle­samt die beob­ach­te­ten Daten l_j, j=1, …, n inter­po­lie­ren aber ansons­ten völ­lig ande­res Ver­hal­ten aufweisen.

Interpolation: Optimierungsproblem

Das Opti­mie­rungs­pro­blem zur Ablei­tung der wahr­schein­lichs­ten Funk­ti­on f lautet
 

\begin{align} \min_{f \in \mathcal{H}_K} ~~~& \|f\|_{\mathcal{H}_K}^2 \\ ~~~&\text{s.t.} f(z_j)=l_j ~~~~ j=1, …, n  \end{align}

wobei \mathcal{H}_K ein Funk­ti­ons­raum ist und -\|f\|^2_{\mathcal{H}_K} die Wahr­schein­lich­keit einer Funk­ti­on f in die­sem raum angibt. Details die­ser For­mu­lie­rung sind z.B. in [2, p. 111] zu fin­den; rele­vant ist vor allem die Umfor­mu­lie­rung als qua­dra­ti­sches Pro­gramm zur Ermitt­lung von Gewich­ten \lambda \in \mathbb{R}^n mit f(z)=\sum_{j=1}^n\lambda_j l_j.

\begin{align} \min_{\lambda} ~~~& (1/2)\lambda^TK_{II}\lambda — \lambda^TK_{I} \\ \text{s.t.} ~~~\sum_{j=1}^n \lambda_j =1 \end{align}
K_{II} und K_{I} sind Matri­zen und Vek­to­ren beinhal­tend die Kor­re­la­ti­ons­struk­tu­ren von f. Sie codie­ren die zugrun­de­lie­gen­den Annah­men über z.B. die Glatt­heit von f. Das Opti­mie­rungs­pro­blem kann mit sol­vern für qua­dra­tic pro­gramming oder per Hand gelöst werden.

Abbil­dung 3: Die durch Lösung des Opti­mie­rungs­pro­b­le­mes aus­ge­ge­be­ne opti­ma­le Schät­zung und die zugrun­de­lie­gen­de Korrelationsstruktur.

Korrelationsstruktur

Die Kor­re­la­ti­ons­ma­tri­zen geben an, wie stark die Wer­te f(z_1), f(z_2) an unter­schied­li­chen Posi­tio­nen (z_1, z_2) mit­ein­an­der kor­re­liert sind: Der Wert von 0 für z_1=0 und z_2=1 zeigt dem­nach an, dass zwi­schen f(0) und f(1) kein nen­nens­wer­ter Zusam­men­hang besteht. Sind kei­ne belast­ba­ren Vor­an­nah­men über die Kor­re­la­ti­ons­struk­tu­ren mög­lich, dann kann sie auch aus den Daten abge­lei­tet wer­den. Dies ist eben­falls ein opti­ma­les Schätz­pro­blem und kann hier ein­ge­se­hen werden.

Abstrakte Splines

Daten zu inter­po­lie­ren ist of hilf­reich. Nicht immer aller­dings ent­ste­hen Daten aus punk­tu­el­len Mes­sun­gen, sind feh­ler­frei, oder hin­sicht­lich ihrer Kor­re­la­ti­ons­struk­tur bekannt. Das momen­tan all­ge­meins­te, immer noch effi­zi­ent lös­ba­re Schätz­pro­blem lau­tet [2, p. 117]

\begin{align} \min_f ~~~& \|Af‑l\|^2_{\mathcal{H}_A}+ \|Bf\|^2_{\mathcal{H}_B}& \\ &f : \text{ Gesuch­te Funk­ti­on}  && l : \text{ Daten} \\  & A : \text{ Mess­ope­ra­tor} && \mathcal{H}_A : \text{ Funk­tio­nen­raum poten­ti­el­ler Mes­sun­gen} \\ & B : \text{ Ener­gie­ope­ra­tor} && \mathcal{H}_B : \text{ Funk­tio­nen­raum poten­ti­el­ler Ener­gien} \end{align}

Lösun­gen für die­se Mini­mie­rungs­pro­ble­me heis­sen abs­trak­te Spli­nes und sie maxi­mie­ren die Wahr­schein­lich­kei­ten der Dis­kre­pan­zen Af‑l zwi­schen  tat­säch­li­chen und hypo­the­thi­schen Beob­ach­tun­gen sowie die Wahr­schein­lich­keit von f sel­ber. Der Mess­ope­ra­tor A bil­det Funk­tio­nen f auf hypo­the­ti­sche Beob­ach­tun­gen Af ab und der Ener­gie­ope­ra­tor B bil­det Funk­tio­nen f ab auf Grös­sen Bf, deren Wahr­schein­lich­keits­ver­tei­lung bekannt ist.

Anwendungen

Die Lösun­gen enorm vie­ler opti­mal esti­ma­ti­on Pro­ble­me las­sen sich als abs­trak­te Spli­nes dar­stel­len. Ist etwa f eine zwei­di­men­sio­na­le Funk­ti­on und Af sind  Lini­en­in­te­gra­le (Af)_j= \int_{z_0}^{z_j} f(z) dz, dann han­delt es sich bei den abs­trak­ten Spli­nes um Lösun­gen für Tomo­gra­phie­pro­ble­me, sie­he Abbildung.

Abbil­dung 4 : Bei der Tomo­gra­phie wer­den nur Gesamt­ein­flüs­se ent­lang von Aus­brei­tungs­we­gen gemes­sen und es soll auf die Ver­tei­lung der indi­vi­du­el­len Effek­te zurück­ge­schlos­sen werden.

Ist hin­ge­gen A ein­fach der Iden­ti­täts­ope­ra­tor und \mathcal{H}_A und \mathcal{H}_B sind Funk­tio­nen­räu­me von Funk­tio­nen ver­schie­de­ner Kor­re­la­ti­ons­struk­tur, dann han­delt es sich bei den abs­trak­ten Spli­nes um Lösun­gen für Signaltrennungsprobleme.

Abbil­dung 5: Eine Signal­über­la­ge­rung f_1+f_2 soll auf­ge­spal­tet wer­den in die ein­zel­nen Signal­kom­po­nen­ten f_1 und f_2. Zur Unter­schei­dung wer­den die ver­schie­de­nen Kor­re­la­ti­ons­struk­tu­ren von f_1 und f_2 verwendet.

Neben die­sen bei­den Bei­spie­len aus der Signal­ver­ar­bei­tung wir die opti­ma­le Schät­zung von Funk­tio­nen auch für vie­le ande­re Zwe­cke ein­ge­setzt. Anwen­dun­gen beinhal­ten die Roh­stoff­pro­spek­ti­on, Bild­ver­ar­bei­tung, Mess­da­ten­aus­wer­tung, die model­lie­rung von Umwelt­phä­no­me­nen betref­fend z.B. epi­de­mio­lo­gi­sche Aus­brei­tungs­vor­gän­ge, Ver­tei­lung von Atmo­sphä­ren­pa­ra­me­tern, geo­lo­gi­sche Eigen­schaf­ten, und Land­nut­zung sowie das Erstel­len von Ersatz­mo­del­len, das kom­pri­mie­ren und Fil­tern von Video­da­ten und vie­les mehr.

Praktisches

Die For­mu­lie­rung und Lösung von Echt­wel­pro­ble­men als abs­trak­te Funk­ti­ons­schät­zungs­pro­ble­me beinhal­tet ver­schie­de­ne Schrit­te. An ers­ter Stel­le steht die her­aus­for­de­rung, eine bestimm­te Auf­ga­be zu iden­ti­fi­zie­ren als lös­bar durch Schät­zung einer Funk­ti­on. Dies ist nicht immer ein­fach. Wei­ter­hin spielt die genaue For­mu­lie­rung und umfor­mung eine wich­ti­ge Rol­le, um die Lös­bar­keit des Opti­mie­rungs­pro­b­le­mes zu gewähr­leis­ten. Strikt gese­hen han­delt es sich bei abs­trak­ten Spli­nes näm­lich um Opti­mie­rungs­pro­ble­me in unend­lich­di­men­sio­na­len Räu­men (Funk­ti­ons­räu­me haben die­se Eigen­schaft typi­scher­wei­se); daher sind cle­ve­re manu­el­le Rech­nun­gen erforderlich.

 Zu guter letzt müs­sen die Kor­re­la­ti­ons­struk­tu­ren der Lösun­gen ent­we­der aus vor­he­ri­gen Daten­grund­la­gen oder auf Basis von Vor­an­nah­men vor­ge­schrie­ben wer­den. Dies erfor­dert Erfah­run­gen in der Model­lie­rung mit sto­chas­ti­schen Pro­zes­sen. Sind die­se drei Her­aus­for­de­run­gen erfolg­reich gemeis­tert, so ist das Resul­tat der Bemü­hun­gen eine aus sto­chas­ti­scher Sicht opti­ma­le Schätzung.

Code & Quellen

Bei­spiel­code: OE_conditional_simulation.py , OE_random_quantities.py , OE_functional_signal_separation.py , OE_simulation_support_funs.py  in unse­rem Tuto­ri­al­fol­der

[1] Cres­sie, N. (1990). The ori­g­ins of kri­ging. Mathe­ma­ti­cal geo­lo­gy, 22, 239–252.

[2] Ber­li­net, A., & Tho­mas-Agnan, C. (2011). Repro­du­cing Ker­nel Hil­bert Spaces in Pro­ba­bi­li­ty and Sta­tis­tics: . Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.