パターン認識と機械学習 練習問題1.1解答

問題1.1

記念すべき第一回の記事は機械学習界隈では有名な教科書であるPRMLの練習問題です。 日本語の記事で練習問題を全部体系的にかいてあるサイトがなかったので自分が書いちゃえ的な感じです。
間違いが多いと思うので、ご指摘お待ちしております。

解答

y(x_n,\boldsymbol{w})の定義は式(1.1)より、

\begin{aligned}
y(x_n,\boldsymbol{w})=\sum_{j=0}^Mw_jx^{j}
\end{aligned}

また、二乗誤差の定義は式(1,2)より、

\begin{aligned}
E(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^N(y(x_n,\boldsymbol{w})-t_n))^{2}
\end{aligned}

また、二乗誤差が最小値を取るとき式(1,2)のw_jに関する微分は0になるから、


\begin{aligned}
\frac{\partial E(\boldsymbol{w})}{\partial w_j}   &=  \sum_{n=0}^N \frac{\partial y(x_n,\boldsymbol{w})}{\partial w_i}(y(x_n,\boldsymbol w)-t_n) \\
 &= \sum_{n=0}^N x^{i}_n (\sum_{j=0}^M w_j x_n^{j}-t_n) \\
 &= \sum_{n=0}^N (\sum_{j=0}^M w_j x_n^{i+j} -t_n x_n^i)
\end{aligned}

微分が0のため右辺=0だから,


\begin{aligned}
\sum_{n=0}^N (\sum_{j=0}^M w_j x_n^{i+j} -t_n x_n^i) &= 0 \\
\sum_{n=0}^N \sum_{j=0}^M w_j x_n^{i+j} &= \sum_{n=0}^N t_n x_n^i
\end{aligned}

題意より、


\begin{aligned}
A_{ij}=\sum_{n=1}^N x_n^{i + j}
\end{aligned}
\begin{aligned}
T_i=\sum_{n=1}^N x_n ^{i} t_n
\end{aligned}

より、

\begin{aligned}
\sum_{j=0}^M A_{ij}w_j = T_i
\end{aligned}

疑問

多くの参考サイトでもこのような解答になっているが、この解答だと最小値を取ることへの証明になっていない。このままでは、極値をとる証明をしただけである。 よって、これでは最小値を取るための必要十分条件ではなく必要条件?だとおもう。わかる人助けてください。

ここ間違ってるよって思う人は教えてください。