Optimal design: Experimentendesign

Problemstellung

Die Fra­ge nach der opti­ma­len Aus­ge­stal­tung eines Expe­ri­men­tes oder einer Mess­an­ord­nung tritt über­all dort auf, wo die Erhe­bung von Mes­sun­gen kos­ten­in­ten­siv und mit Unsi­cher­hei­ten behaf­tet ist. 

Die betrifft jeg­li­che Anwen­dun­gen, bei denen die Daten­aus­wer­tung mit sta­tis­ti­schen metho­den vor­zu­neh­men ist wie z.B. bei dem Ent­wurf von phar­ma­zeu­ti­schen Ver­suchs­rei­hen [1, p. 511], schu­li­schen Examen [2], oder Mess­net­zen in der Geo­dä­sie [3]. Beim Expe­ri­ment­ende­sign ist her­aus­zu­fin­den, wie oft wel­che Mes­sun­gen aus­zu­füh­ren sind, um den Infor­ma­ti­ons­ge­halt der Daten zu maximieren.

Beispiel: Messverteilung

Es soll eine Gera­de durch an zwei Posi­tio­nen gemes­se­ne Daten­punk­te gelegt wer­den. Dies allei­ne wäre eine tri­via­le Auf­ga­be aus dem bereich der Para­me­ter­schät­zung. Wir beschäf­ti­gen uns jetzt jedoch mit der Fra­ge­stel­lung, wie ein Mess­bud­get von z.B. \(N=10\) ver­rausch­ten Mes­sun­gen auf die­se Posi­tio­nen so auf­ge­teilt wer­den kann, dass die Gesamt­un­si­cher­heit der geschätz­ten Gera­de mini­miert wird. Dies ist genau ein Pro­blem des Experimentendesigns.

Abbil­dung 1: Sche­ma­skiz­ze des Expe­ri­ment­ende­signs (a). An zwei Posi­tio­nen \(p_1\) und \(p_2\) kön­nen mit Unsi­cher­heit behaf­te­te Mes­sun­gen durch­ge­führt wer­den. Es muss Ent­schie­den wer­den, wie vie­le Mes­sun­gen and \(p_1\) und \(p_2\) durch­ge­führt wer­den, um die abge­lei­te­ten Para­me­ter \(\theta_1, \theta_2\) mög­lichst sicher zu bestim­men (b).

Der Zusam­men­hang zwi­schen Mes­sun­gen \(l_1\), \(l_2\) und Posi­tio­nen \(p_1, p_2\) ist auf­grund der Gera­den­glei­chung gege­ben als

$$ \underbrace{\begin{bmatrix} l_1 \\ l_2 \end{bmatrix}}_{l}\approx \underbrace{\begin{bmatrix} 1 & p_1 \\ 1 & p_2 \end{bmatrix}}_{A}  \underbrace{\begin{bmatrix} \theta_1 \\ \theta_2 \end{bmatrix}}_{\theta}  ~~~~~\begin{matrix} \theta_1 : \text{ Abszis­se} \\ \theta_2 : \text{ Stei­gung} \end{matrix}.$$

Es kön­nen \(n_1\) Mes­sun­gen an \(p_1\) durch­ge­führt wer­den und \(n_2\) Mes­sun­gen an \(p_2\) wobei \(n_1+n_2=N=10\) gel­ten soll.

Beispiel: Optimierungsformulierung

Die­se Mess­ver­tei­lung ist so zu wäh­len, dass die Gesamt­un­si­cher­heit \(\sigma_{\theta_1}^2 + \sigma_{\theta_2}^2\) der Para­me­ter mini­miert wird. Dabei ist \(\sigma_{\theta}^2\) die vari­anz des Para­me­ters \(\theta\). Das Opti­mie­rungs­pro­blem lautet

$$\begin{align} \min_{n_1,n_2} ~~~ & \sigma_{\theta_1}^2(n_1,n_2) + \sigma_{\theta_2}^2 (n_1, n_2) \\ \text{s.t.} ~~~ & n_1+n_2=10 \end{align}$$

Der Ein­fach­heit hal­ber neh­men wir an, die Mes­sun­gen sei­en gleich­ge­nau mit Vari­anz \(\sigma_0^2\) und wäh­len die kon­kre­ten Mess­po­si­tio­nen \(p_1=0\) und \(p_2=1\). Gemäss den übli­chen Rechen­re­geln für Unsi­cher­hei­ten, ver­ri­g­nert eine \(n-\) fache Mes­sung die Vari­anz auf das \(1/n-\) fache der Ein­zel­mes­sung [4, p. 17]. Dann gilt für die Kova­ri­anz­ma­tri­zen \(\Sigma_l, \Sigma_{\theta}\) der Beob­ach­tun­gen  und der Parameter

$$\begin{align} \Sigma_l  & = \sigma_0^2 \begin{bmatrix} \frac{1}{n_1} & 0 \\ 0 & \frac{1}{n_2} \end{bmatrix} \\ \Sigma_{\theta} & =A^{-1} \Sigma_l A^{-1 T} \\ & = \sigma_0^2 \begin{bmatrix} 1 & 0 \\ ‑1 &1 \end{bmatrix} \begin{bmatrix} \frac{1}{n_1} & 0 \\ 0 & \frac{1}{n_2} \end{bmatrix}  \begin{bmatrix} 1 & ‑1 \\ 0 & 1 \end{bmatrix} \\ & = \sigma_0^2 \begin{bmatrix} \frac{1}{n_1} & — \frac{1}{n_1} \\ -\frac{1}{n_1} & \frac{1}{n_1}+\frac{1}{n_2} \end{bmatrix} \end{align} $$

Mini­mie­rung von \(\sigma_{\theta_1}^2 + \sigma_{\theta_2}^2\) ist gelich­be­deu­tend mit Mini­mie­rung von \(\operatorname{tr} \Sigma_{\theta} \) und das opti­ma­le Expe­ri­ment­ende­sign zeich­net sich dem­nach aus durch

$$\begin{align} \min_{n_1,n_2} ~~~& \frac{2}{n_1}+\frac{1}{n_2}  \\ \text{s.t.} ~~~ & n_1+n_2=10 \end{align}$$

Beispiel: Lösung

Über­ra­schen­der­wei­se ist die Mes­sung an der Stel­le \(p_1\) dop­pelt so wich­tig  für die gesamt­un­si­cher­heit wie die Mes­sung an der Stel­le \(p_2\). Die rührt daher,  dass die Mes­sung \(l_2\) irrele­vant ist für den Para­me­ter \(\theta_1\) — ein Zusam­men­hang der bei einer intui­ti­ven gleich­ver­tei­lung der Mes­sun­gen nicht berück­sich­tigt wor­den wäre.

Das beschränk­te Opti­mie­rungs­pro­blem lässt sich lösen mit Hil­fe der Lagran­ge­funk­ti­on \(\mathcal{L}\) und der dazu­ge­hö­ri­gen KKT Gleichungen.

$$ \begin{align} \mathcal{L}(n_1,n_2,\nu)&= \frac{2}{n_1}+\frac{1}{n_2}+\nu(n_1+n_2-10) \\ \partial_{n_1} \mathcal{L} & = -\frac{2}{n_1^2}+\nu\stackrel{!}{=}0 \\\partial_{n_2} \mathcal{L} &=-\frac{1}{n_2^2}+\nu \stackrel{!}{=}0 \\ \partial_{\nu} \mathcal{L} & = n_1+n_2-1- \stackrel{!}{=} 0  \end{align}$$

Die opti­ma­le Lösung ist \(n_1^*=(1+\sqrt{2})^{-1}(\sqrt{2} +10)\approx 5.9 \) und \(n_2^*=(1+\sqrt{2})^{-1}10 \approx 4.1\). Die mini­ma­le Unsi­cher­heit der Para­me­ter beträgt \(0.583*\sigma_0^2\) wobei \(\sigma_0^2\) die Vari­anz einer Ein­zel­mes­sung ist.

Abbil­dung 2: Die Ein­zel­un­si­cher­hei­ten der Para­me­ter \(\theta_1\) und \(\theta_2\) sind in (a) und (b) dar­ge­stellt. Die Anzahl \(n_1\) an Mes­sun­gen am Punkt \(p_1\) hat den gröss­ten Ein­fluss auf den Para­me­ter \(\theta_1\), glei­ches gilt für \(n_2, p_2,\) und \(\theta_2\). Für \(n_1+n_2=10\) wird die Gesamt­un­si­cher­heit mini­miert wenn 6 Mes­sun­gen an \(p_1\) und 4 Mes­sun­gen an \(p_2\) durch­ge­führt werden ©.

Generalisierung

Diver­se Erwei­te­run­gen des Pro­b­le­mes sind mög­lich. Zu ver­schie­de­nen Mes­sun­gen kön­nen ver­schie­de­ne Kos­ten asso­zi­iert wer­den und Mes­sun­gen kön­nen mit­ein­an­der gekop­pelt wer­den. Es ist auch mög­lich, Mes­sun­gen zu Grup­pen zusam­men­zu­fas­sen und Ent­schei­dun­gen über das Expe­ri­ment­ende­sign  nur auf Ebe­ne die­ser Grup­pen zuzu­las­sen. Übli­cher­wei­se wird das Opti­mie­rungs­pro­blem zur Ermitt­lung bes­ter Expe­ri­ment­ende­signs mit Hil­fe der Fisher-Infor­ma­ti­ons­ma­trix \(\mathcal{M}\) for­mu­liert zu [1, p. 514]

$$\begin{align} \min_{\xi} ~~~ & \Psi[\mathcal{M}] \\ \text{s.t.} ~~~& \xi \in \Xi \\ & \xi = \begin{bmatrix} p_1 & \cdots & p_n \\ x_1 & \cdots & x_n \end{bmatrix} \end{align} .$$

Dabei ist \(\xi\) das Design des Expe­ri­men­tes, wel­ches die Mess­punk­te \(p_1, …, p_n\) und die rela­ti­ven Häu­fig­kei­ten \(x_1, …, x_n\)  der Mes­sun­gen fest­le­gen. Es ist auf die men­ge \(\Xi\) beschränkt und die sich aus dem Design \(\xi\) erge­ben­de Infor­ma­ti­ons­ma­trix \(\mathcal{M}\) wird hin­sicht­lich ihrer taug­lich­keit durch die Funk­ti­on \(\Psi\) beur­teilt. \(\Psi(\mathcal{M}\) steht meist in direk­tem Bezug zu der Kova­ri­anz­ma­trix \(\Sigma_{\theta}\) der aus dem Expe­ri­ment abzu­lei­ten­den Para­me­ter und kann etwa die Gesamt­un­si­cher­heit \(\operatorname{tr} \Sigma_{\theta}\), die Maxi­mal­un­si­cher­heit \(\lambda_{max} (\Sigma_{\theta})\), oder das Unsi­cher­heits­vo­lu­men \(\log \det \Sigma_{\theta}\) sein [1, pp. 511- 532].

Das obi­ge Opti­mie­rungs­pro­blem gene­ra­li­siert die anfäng­lich manu­ell gelös­te Auf­ga­ben­stel­lung betref­fend die opti­ma­le Mess­ver­tei­lung zur Para­me­ter­be­stim­mung einer Aus­gleichs­ge­ra­de. In ihr waren \(n=2, p_1\) und \(p_2\) waren fixiert und \(x_1=n_1, x_2=n_2\) waren so zu wäh­len, dass \(\Psi(\mathcal{M})=\operatorname{tr} \Sigma_{\theta} =\sigma_{\theta_1}^2+\sigma_{\theta_2}^2\) mini­mal wird. Der Zusam­men­hang zwi­schen \(\Sigma_{\theta}\) und \(l \approx A \theta\) war \(\Sigma_{\theta} = A^{-1}\Sigma_l A^{-1 T}\) und somit $$ \Sigma_{\theta} = A^{-1} \begin{bmatrix} \frac{1}{n_1} & 0 \\ 0 & \frac{1}{n_2} \end{bmatrix} A^{-1 T} = A^{-1} \begin{bmatrix} n_1 & 0 \\ 0 & n_2\end{bmatrix}^{-1} A^{-1 T} = \left[ \sum_{k=1}^2 n_k a_k a_k^T\right]^{-1} $$

wobei \(a_1, a_2\) die Zei­len der Matrix \(A\) sind.

Optimierungsformulierung Gesamtunsicherheit

prak­tisch gene­ra­li­siert sich die von uns im ein­fa­chen 2‑dimensionalen Fall durch­ge­führ­te Gesamt­un­si­cher­heits­mi­ni­mie­rung als semi­de­fi­ni­tes Pro­gramm der fol­gen­den Form [5, p. 387].

$$ \begin{align} \min_x ~~~& \operatorname{tr}\left[\sum_{k=1}^n x_k a_k a_k^T\right]^{-1} \\ \text{s.t.} ~~~& x \ge 0 ~~~ \vec{1}^Tx=1 \end{align}$$

Hier­bei ist \(C=[\sum_{k=1}^n x_k a_k a_k^T]^{-1}\) eine Kova­ri­anz­ma­trix. Die Aus­deh­nung von \(C\) mini­mal zu hal­ten über die For­de­rung \( \min _x \operatorname{tr} C\) impli­ziert  geringst­mög­li­che Unsi­cher­hei­ten. In der Opti­mie­rungs­for­mu­lie­rung sind die Ein­trä­ge \(x_k, k=1, …, n\) des Vek­tors \(x\) die Ent­schei­dungs­va­ria­blen. Ihre Wer­te geben an, wie gross der Anteil von Ver­such Nr. \(k\) ist am gesam­ten Ver­suchs­bud­get. Daher müs­sen die \(x_k\) auch nicht-nega­tiv sein und sich zu 1 addie­ren. Die \(a_k, k=1, …, n\) reprä­sen­tie­ren \(n\) ver­schie­de­ne poten­ti­el­le Messungen.

Das Pro­blem kann mit Hil­fe des Schur-Kom­ple­men­tes in ein semi­de­fi­ni­tes Pro­gramm in Stan­dard­form umge­wan­delt wer­den. In der Form

$$ \begin{align} \min_{x, u} ~~~& \vec{1}^Tu \\ \text{s.t.} ~~~& x \ge 0 ~~~ \vec{1}^Tx=1 \\ & \begin{bmatrix} \sum_{k=1}^n x_k a_k a_k^T & e_k \\ e_k^T & u_k\end{bmatrix} \succeq 0 ~~~~~~k=1, …, n \end{align}$$

weist es linea­re Matrixun­glei­chun­gen auf und kann z.B. mit Hil­fe des Open source sol­vers SCS [6] gelöst werden.

Anwendung

Das auto­ma­ti­sche Expe­ri­ment­ende­sign via Opti­mie­rungs­al­go­rith­mus wird mit einem Bei­spiel illus­triert. Es gel­te wieder

$$ l\approx A \theta $$

wobei  \(A\) eine Matrix ist und \(\theta\) meh­re­re unbe­kann­te Wirk­ei­gen­schaf­ten eines Pro­duk­tes (z.B. einer Che­mi­ka­lie) sind. Der Best­mög­li­che Schät­zer für \(\theta\) ist \(\hat{\theta}=(A^TA)^{-1}A^Tl\) mit Kova­ri­anz­ma­trix \(C=(A^TA)^{-1}\).  Wäh­le nun die Ein­trä­ge von \(A\) so, dass \(C\) klein wird. Dabei ste­hen die Ver­su­che \(a_1, …, a_{10}\) zur Aus­wahl, deren Häu­fig­keit zu wäh­len ist.

$$ a_1=\begin{bmatrix} 1.62 \\ ‑0.61 \\ ‑0.53 \end{bmatrix} ~~~~ … ~~~~ a_3=\begin{bmatrix} 1.74 \\ ‑0.76 \\ 0.32 \end{bmatrix} ~~~~ … ~~~~ a_8=\begin{bmatrix} 1.14 \\ 0.90 \\ 0.50 \end{bmatrix} ~~~~ … ~~~~ a_{10} =\begin{bmatrix} ‑0.93 \\ ‑0.26 \\ 0.53 \end{bmatrix} $$

Das Fin­den einer Ver­tei­lung \(x\) von Mes­sun­gen, sodass \(\operatorname{tr} ( \sum_{k=1}^{10} x_k a_ka_k^T)^{-1} \) mini­mal wird ist eine semi­de­fi­ni­tes Pro­gramm, das sich inner­halb von 0.1 Sekun­den auf einem Office­com­pu­ter lösen lässt.

Abbil­dung 3: Die opti­ma­le Häu­fig­keits­ver­tei­lung für die 10 ver­schie­de­nen Ver­suchs­va­ri­an­ten (a). Die Sum­me der Vari­an­zen für ver­schie­de­ne zufäl­lig gewähl­te Expe­ri­men­ten­kon­fi­gu­ra­tio­nen (b) Die vom Algo­rith­mus ermit­tel­te Opi­mie­rungs­lö­sung ist in oran­ge dargestellt..

Das Ergeb­nis lässt eini­ge Schlüs­se zu. So ist z.B. Ver­such Nr. 3 der Genau­ig­keit bei der Wir­kungs­grad­schät­zung nur wenig zuträg­lich und Ver­such Nr.  2 ist beson­ders aus­sa­ge­kräf­tig. Die obi­ge Lösung des Opti­mie­rungs­pro­b­le­mes erzielt signi­fi­kant bes­se­re (=klei­ne­re) Vari­an­zen als sons­ti­ge, zufäl­lig gewähl­te Experimentenkonfigurationen.

Praktisches

Opti­ma­les Expe­ri­ment­ende­sign ist beson­ders dann wich­tig, wenn die Daten­er­he­bung mit gros­sem Auf­wand und hohen Kos­ten ver­bun­den ist und die Eigen­schaf­ten des zu unter­su­chen­den Objek­tes unklar sind. Beson­de­re Schwie­rig­kei­ten tre­ten dann auf, wenn Kor­re­la­tio­nen oder Kau­sa­li­tä­ten das sto­chas­ti­sche Modell \(l \approx A\theta\) ver­kom­pli­zie­ren. Glei­ches gilt für nicht­li­nea­re Zusam­men­hän­ge, die eine For­mu­lie­rung als wohl­de­fi­nier­tes semi­de­fi­ni­tes Pro­gramm unterbinden.

Sind aller­dings gewis­se Stan­dard­vorraus­set­zun­gen gege­ben, dann ist opti­ma­les Expe­ri­ment­ende­sign selbst mit hun­der­ten von zu tref­fen­den Mess­ent­schei­dun­gen rou­ti­ne­mäs­sig mög­lich und die Inter­pre­ta­ti­on der garan­tier­ten Güte­kri­te­ri­en ist rela­tiv einfach.

Code & Quellen

eispiel­code: OD_experiment_design_1.py, OD_experiment_design_2 in unse­rem Tuto­ri­al­fol­der

[1] Wol­ko­wicz, H., Sai­gal, R., & Van­den­berg­he, L. (2012). Hand­book of Semi­de­fi­ni­te Pro­gramming: Theo­ry, Algo­rith­ms, and Appli­ca­ti­ons. Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.

[2] Flet­cher, R. (1981) A non­line­ar Pro­gramming Pro­blem in Sta­tis­tics (Edu­ca­tio­nal Test­ing). SIAM Jour­nal on Sci­en­ti­fic and Sta­tis­ti­cal Com­pu­ting, 2(3), 257–267.

[3] Gra­fa­rend, Erik W., San­sò, F. (2012). Optimi­zation and Design of Geo­de­tic Net­works. Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.

[4] Ash, Robert B. (2011). Sta­tis­ti­cal Infe­rence: A Con­cise Cour­se. New York: Cou­rier Corporation.

[5] Boyd, S., & Van­den­berg­he, L. (2004). Con­vex Optimi­zation. Cam­bridge: Cam­bridge Uni­ver­si­ty Press.

[6] O’donoghue, B., Chu, E., Parikh, N., & Boyd, S. (2016). Conic Optimi­zation via Ope­ra­tor Split­ting and Homo­ge­neous Self-Dual Embed­ding. Jour­nal of Optimi­zation Theo­ry and Appli­ca­ti­ons, 169(3), 1042–1068.