Referenzen

Bollhöfer, M., Mehrmann, V.: Numerische Mathematik. Eine projektorientierte Einführung für Ingenieure, Mathematiker und Naturwissenschaftler. Vieweg (2004)

Nocedal, J., Wright, S.J.: Numerical optimization. Springer (2006)

Wikipedia contributors: Stochastic gradient descent — Wikipedia, the free encyclopedia, https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=1098148439, (2022)


  1. Auf Matrixnormen kommen wir noch in der Vorlesung zu sprechen.↩︎

  2. Download bitte hier – Achtung das sind 370MB↩︎

  3. allerdings mit 2 unvollständigen Datenpunkten, die ich entfernt habe für unseere Beispiele↩︎

  4. Im Originaldatensatz ist das Gewicht in Gramm angegeben, um die Daten innerhalb einer 10er Skala zu haben, habe ich das Gewicht auf in kg umgerechnet↩︎

  5. wir dürfen aber nicht vergessen, dass Daten typischerweise nur eine Stichprobe von Beobachtungen eines Phänomens sind. Die Unabhängigkeit in den features gilt also nur für die gesammelten Daten aber in der Regel nicht für das Phänomen. Für normalverteilte Prozesse liefern die daten-basiert ermittelten Hauptrichtungen jedoch auch die Hauptrichtungen des zugrundeliegenden Phänomens↩︎

  6. wenn wir Inhalt mit Varianz gleich setzen↩︎

  7. Im machine learning wird gerne von generalization gesprochen↩︎

  8. Das folgt aus der Kettenregel für multivariable Funktionen, die wir in der Vorlesung Mathematik für Data Science 2 noch beweisen werden↩︎

  9. könnte auch ein Maximum sein, was wir aber einfach als ein Minimum von \(-f\) einordnen↩︎

  10. gut im Sinne von der Fehler \(f(x+h)-f(x)-f'(x)h\) geht schneller zur \(0\) als \(h\)↩︎

  11. Die korrekte quadratische Approximation von \(f\) würde noch den Term \(f(x^k)\) enthalten. Dieser kann aber einfach weggelassen werden bei der Suche der Minimalstelle.↩︎