Das Kefk Network Wiki befindet sich im Testbetrieb.


Konvexe und konkave Funktionen

Aus Kefk.

(Weitergeleitet von Konvexe Funktion)
Wechseln zu: Navigation, Suche
[[Hilfe:Cache|Fehler beim Thumbnail-Erstellen]]: convert: unable to open image `/var/www/kefk/w/images/d/d6/Convex_Function.png': No such file or directory.
Konvexe Funktion

In der Analysis heißt eine Funktion f von einem Intervall I (oder allgemeiner einer konvexen Teilmenge C eines reellen Vektorraums) nach \mathbb{R} konvex, wenn für alle x, y aus I (bzw. aus C) und t zwischen 0 und 1 gilt:

 f(t x+(1-t)y) \le t f(x)+(1-t)f(y)

Anschaulich bedeutet die Definition: Die Funktionswerte zwischen zwei Werten x,y liegen unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y.

Gilt das Ungleichheitszeichen in die umgekehrte Richtung, also

 f(t x+(1-t)y) \ge t f(x)+(1-t)f(y)

für alle x, y aus I und t zwischen 0 und 1 gilt, so wird die Funktion als konkav bezeichnet.[1] Vereinzelt wird der hier verwendete Begriff "konvex" als "konvex von unten" und im Gegensatz dazu "konkav" als "konvex von oben" bezeichnet.[1]

Eine Funktion heißt streng konvex, wenn für alle x,y aus I (bzw. C) und t echt zwischen 0 und 1 gilt:

f(tx + (1 − t)y) < tf(x) + (1 − t)f(y).

Analog heißt eine Funktion streng konkav, wenn für alle x,y aus I (bzw. C) und t echt zwischen 0 und 1 gilt:

f(tx + (1 − t)y) > tf(x) + (1 − t)f(y).[1]

Die besondere Bedeutung konvexer bzw. konkaver Funktionen liegt darin, dass sie allgemeiner als lineare Funktionen sind, aber einfach zu untersuchende Eigenschaften haben, die viele Aussagen über nichtlineare Systeme, insbesondere über nichtlineare Optimierungsprobleme ermöglichen.

Inhaltsverzeichnis

Geschichte

Wesentliche Aussagen zu konvexen und konkaven Funktionen finden sich bereits 1889 bei Otto Hölder, wobei er aber die Bezeichnungen konvex und konkav noch nicht verwendete.[1] Die Bezeichnungen konvex und konkav für Funktionen wurden 1905 von Johann Ludwig Jensen eingeführt.[1] Jensen verwendete allerdings die schwächere Definition

 f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}

und zeigte, dass daraus für stetige Funktionen

 f(t x+(1-t)y) \le t f(x)+(1-t)f(y)

für alle t zwischen 0 und 1 folgt.[1] Für Details siehe Jensensche Ungleichung.

Gelegentlich findet sich vor allem in älteren Werken noch diese schwächere Definition.[1]

Eigenschaften

Graph

Der Graph einer konvexen Funktion ist so gewölbt, dass die Menge der Punkte oberhalb des Graphen, der sogenannte Epigraph, eine konvexe Menge ist. Der Graph einer konkaven Funktion ist so gewölbt, dass die Menge der Punkte unterhalb des Graphen, der sogenannte Hypograph, eine konvexe Menge ist. Zu beachten ist, dass eine nicht-konvexe Funktion nicht automatisch konkav sein muss, d.h. konvex und konkav sind hier nicht das exakte Gegenteil voneinander. Jede lineare Funktion ist sowohl konkav als auch konvex, und die Sinusfunktion ist keins von beiden (weder die Menge der Punkte oberhalb des Graphen noch die der Punkte unterhalb des Graphen ist eine konvexe Menge).

Verhältnis konvex und konkav

Eine Funktion f ist genau dann konvex (konkav), wenn die Funktion -f konkav (konvex) ist.

Umkehrfunktion

Ist f\! invertierbar und setzt man x=f^{-1}(u), y=f^{-1}(v)\!, so erhält man für eine konvexe Funktion

 f(t f^{-1}(u)+(1-t)f^{-1}(v)) \le t u+(1-t)v \!.

Für eine monoton steigende Funktion gilt also

 t f^{-1}(u)+(1-t)f^{-1}(v) \le f^{-1}(t u+(1-t)v),

für eine invertierbare monoton steigende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die umgekehrte Art der Konvexität, ist also monoton steigend und konkav (konvex), siehe z.B. ex und lnx.

Für eine monoton fallende Funktion gilt hingegen

 t f^{-1}(u)+(1-t)f^{-1}(v) \ge f^{-1}(t u+(1-t)v),

für eine invertierbare monoton fallende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die gleiche Art der Konvexität, ist also streng monoton steigend und konvex (konkav), siehe z.B. 1 / x auf (-\infty,0) bzw. (0,\infty).

Konvexität und erste Ableitung

Ist f : \R \to \R differenzierbar, dann gilt

  •  f\, ist genau dann konvex, wenn ihre Ableitung  f^\prime wachsend ist, und genau dann streng konvex, wenn  f^\prime streng monoton wachsend ist.  f\, ist genau dann konkav, wenn ihre Ableitung  f^\prime fallend ist, und genau dann streng konkav, wenn  f^\prime streng monoton fallend ist. Dieses Resultat findet sich im Wesentlichen schon 1889 bei Otto Hölder.[1]
  • Konvexe Funktionen liegen oberhalb der Tangente, also f(x+h)\ge f(x)+hf'(x), wobei für streng konvex f(x+h)> f(x)+hf'(x)\! für h \neq 0 gilt. Aus dieser Beziehung folgt beispielsweise die Verallgemeinerung der Bernoullischen Ungleichung (1+x)^r\geq 1+rx für reelle r mit r\leq 0 oder r\geq 1.
  • Konkave Funktionen liegen unterhalb der Tangente, also  f(x+h)\le f(x)+hf'(x) , wobei für streng konkav f(x+h)< f(x)+hf'(x)\! für h \neq 0 gilt. Aus dieser Beziehung folgt beispielsweise die Verallgemeinerung der Bernoullischen Ungleichung (1+x)^r\leq 1+rx für reelle r mit 0 \le r\leq 1.
  • Eine konvexe(konkave) Funktion ist fast überall differenzierbar

Konvexität und die Ableitung

  • Jede konvexe(konkave) Funktion ist im Inneren links- und rechtsseitig differenzierbar.
  • Eine überall links- und rechtsdifferenzierbare Funktion ist genau dann konvex, wenn ihre Ableitung monoton wachsend ist.
  • Eine überall links- und rechtsdifferenzierbare Funktion ist genau dann konkav, wenn ihre Ableitung monoton fallend ist.

Konvexität und zweite Ableitung

Der Zusammenhang zwischen Konvexität und zweiter Ableitung wurde im Wesentlichen schon 1889 von Otto Hölder beschrieben.[1]. Für zwei Mal stetig differenzierbare Funktionen f\!: \R \to \R gilt

  • f\! ist genau dann konvex, wenn f''\! \geq 0\! gilt. Ist f''\! positiv, ist also f\! linksgekrümmt, so ist die Funktion streng konvex; bei streng konvexen Funktionen kann die zweite Ableitung aber einzelne Nullstellen haben, wie das Beispiel f(x)=x^4\! für x=0\! zeigt.
  • f\! ist genau dann konkav, wenn f''\!\leq 0\! gilt. Ist f''\! negativ, also f\! rechtsgekrümmt, so ist die Funktion streng konkav; bei streng konkaven Funktionen kann die zweite Ableitung aber einzelne Nullstellen haben, wie das Beispiel f(x)= - x^4\! für x=0\! zeigt.

Ist die Funktion f: \R^n \to \R zweimal stetig differenzierbar, dann gilt

Extremwerte

  • Ein lokales Minimum einer konvexen Funktion ist auch ein globales Minimum. Eine strikt konvexe Funktion hat höchstens ein globales Minimum. Eine stetige strikt konvexe Funktion auf einer kompakten konvexen Menge hat auf dieser Menge genau ein globales Minimum. ex hat aber beispielsweise kein globales Minimum für x\in(-\infty,\infty).
  • Ein lokales Maximum einer konkaven Funktion ist auch ein globales Maximum. Eine strikt konkave Funktion hat höchstens ein globales Maximum.Eine stetige strikt konkave Funktion auf einer kompakten konvexen Menge hat auf dieser Menge genau ein globales Maximum. lnx hat aber beispielsweise kein globales Maximum für x\in(0,\infty).

Da konvexe bzw. konkave Funktionen die Eindeutigkeit von Extremwerten sicherstellen, spielen sie in der nicht-linearen Optimierung eine wichtige Rolle.

Verknüpfungen

Linearkombination

Sind f und g zwei konvexe (konkave) Funktionen, so ist auch jede Linearkombination af + bg mit nichtnegativen Koeffizienten a,b wieder konvex (konkav).

Grenzwert

Der Grenzwert einer punktweise konvergenten Folge konvexer (konkaver) Funktionen ist auch wieder eine konvexe (konkave) Funktion. Ebenso ist die Summe einer punktweise konvergenten Reihe konvexer (konkaver) Funktionen auch wieder eine konvexe (konkave) Funktion.

Supremum konvexer Funktionen

Ist \lbrace f_\alpha:\alpha \in A \rbrace eine Menge konvexer Funktionen, und existiert punktweise das Supremum

f(x):=\sup_{\alpha\in A}f_{\alpha}(x)

für alle x, so ist auch f eine konvexe Funktion.

Für das Infimum gilt das nicht, wie das Beispiel f_1(x)=1\!, f_2(x)=x\! zeigt.

Infimum konkaver Funktionen

Ist \lbrace f_\alpha:\alpha \in A \rbrace eine Menge konkaver Funktionen, und existiert punktweise das Infimum

f(x):=\inf_{\alpha\in A}f_{\alpha}(x)

für alle x, so ist auch f eine konkave Funktion.

Für das Supremum gilt das nicht, wie das Beispiel f_1(x)=1\!, f_2(x)=x\! zeigt.

Jensensche Ungleichung

Für konvexe und konkave Funktionen gilt die Jensensche Ungleichung.

Der Fall t<0 bzw. t>1

Für t < 0 oder t > 1 dreht sich das Ungleichheitszeichen um, für konvexe Funktionen gilt dann also

 f(t x+(1-t)y) \ge t f(x)+(1-t)f(y)

sofern u: = tx + (1 − t)y noch im Intervall I (bzw. in der konvexen Menge C) ist. Um das zu sehen sei beispielsweise t > 1, dann gilt x=\frac{1}{t}u+\frac{t-1}{t}y, wegen Konvexität also

f(x)=f(\frac{1}{t}u+\frac{t-1}{t}y)\le \frac{1}{t}f(u)+\frac{t-1}{t}f(y), somit
t f(x) + (1-t)f(y)\le f(u)=f(t x+(1-t)y).

Konvexität und Stetigkeit

Jede auf einem offenen Intervall konvexe Funktion ist stetig. Setzt man umgekehrt Stetigkeit voraus, so reicht für Konvexität bereits die Bedingung, dass für alle x,y aus I gilt:

f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2};

es reicht sogar, dass für ein beliebiges, aber fixes \lambda\! mit 0<\lambda<1\!

f\left(\lambda x +(1-\lambda)y\right) \le \lambda f(x)+(1-\lambda)f(y)

für alle x,y aus I gilt.

Beispiele

Bild:Normalparabel.png
Normalparabel ist konvex
  • Die Funktion f(x) = x2 ist auf ganz R streng konvex, denn f '(x) = 2x ist streng monoton wachsend.
  • Die Funktion f(x) = -x2 ist auf ganz R streng konkav, denn f '(x) = -2x ist steng monoton fallend.
  • Die Wurzelfunktion f(x) = √x ist streng konkav auf dem Intervall [0, ∞) der nichtnegativen reellen Zahlen.
  • Die Exponentialfunktion ist streng konvex auf ganz R.
  • Die Logarithmusfunktion ist streng konkav auf dem Intervall (0, ∞) für eine Basis größer als 1 und streng konvex auf dem Intervall (0, ∞) für eine Basis kleiner als 1.
  • Die Betragsfunktion f(x) = |x| ist auf ganz R konvex, aber nicht streng konvex.
  • Die negative Betragsfunktion f(x) = -|x| ist auf ganz R konkav, aber nicht streng konkav.
  • Die Funktion f(x) = x3 ist konkav für x ≤ 0 und konvex für x ≥ 0.
  • Die Funktion f(x) = 1/x ist streng konvex auf dem Intervall (0, ∞) der positiven reellen Zahlen und streng konkav auf dem Intervall (-∞, 0) der negativen reellen Zahlen.

Konvexität, Beschränktheit und Stetigkeit

Schwächere Definition der Konvexität

Setzt man Stetigkeit voraus, so reicht für Konvexität in einer konvexen Teilmenge C eines reellen topologischen Vektorraums bereits die Bedingung, dass ein beliebiges, aber fixes \lambda\in\R mit 0<\lambda<1\! existiert, sodass für alle x,y aus C gilt:

f\left(\lambda x + (1-\lambda)y\right) \le \lambda f(x) + (1-\lambda)f(y).

Um dies zu sehen, betrachtet man die Menge T aller "guten" t, die durch

T=\lbrace t \in [0,1]: f(t x+(1-t)y) \le t f(x)+(1-t)f(y) \quad \forall x,y \in C\rbrace

definiert ist.

Seien nun u,v\in T\!. Dann gilt auch \lambda u + \left(1-\lambda\right)v \in T, denn

f\Big(\left(\lambda u + \left(1-\lambda\right)v\right)x+\left(1-\lambda u - \left(1-\lambda\right)v\right)y\Big)
=f\Big(\lambda(ux+(1-u)y)+ (1-\lambda)(vx+(1-v)y)\Big)
\leq \lambda f\Big(ux+(1-u)y\Big)+ (1-\lambda)f\Big(vx+(1-v)y\Big)
\leq \lambda \Big( uf(x)+(1-u)f(y)\Big)+ (1-\lambda)\Big(vf(x)+(1-v)f(y)\Big)
=\Big(\lambda u + (1-\lambda)v\Big)f(x)+ \Big(1- \lambda u - (1-\lambda)v\Big) f(y).

Sein nun t\! eine beliebige reelle Zahl mit 0<t<1\!. Dann lässt sich eine Intervallschachtelung [u_n,v_n]\! mit u_n, v_n \in T konstruieren, die gegen t\! konvergiert: Sei u_0=0, v_0=1\! und 0\leq u_n\leq t < v_n\leq 1 und 0<v_n-u_n\leq q^n mit 0<q:=\min\left(\lambda, 1-\lambda\right)<1.

Sei t_n:=\lambda u_n + \left(1-\lambda\right)v_n.

Ist t_n\leq t, so setzt man u_{n+1}:=t_n\!, v_{n+1}:=v_n\! und es gilt v_{n+1}-u_{n+1}=\lambda(v_n-u_n)\!.

Ist t_n> t\!, so setzt man u_{n+1}:=u_n\!, v_{n+1}:=t_n\! und es gilt v_{n+1}-u_{n+1}=(1-\lambda)(v_n-u_n)\!.

u_{n+1}, t_{n+1}\! sind ebenfalls aus T\!, es gilt t\in[u_{n+1}, v_{n+1}]\! und 0<v_{n+1}-u_{n+1}\leq q^{n+1}.

Die so konstruierte Intervallschachtelung konvergiert also gegen t\!; wegen der Stetigkeit von f\! gilt daher t\in T\!. Da t\! beliebig gewählt war, folgt also T=[0,1]\! und f\! ist konvex.

Gegenbeispiel ohne Stetigkeit

Dass Stetigkeit für die schwächere Definition wirklich benötigt wird, lässt sich mit folgendem Gegenbeispiel zeigen: Ist bj\in \R, j\in J eine Hamelbasis des Vektorraums der reellen Zahlen über dem Körper der rationalen Zahlen, also eine über den rationalen Zahlen linear unabhängige Menge reeller Zahlen, in der jede reelle Zahl r eine Darstellung der Art r=\sum_{j\in J}q_j b_j mit nur endlich vielen rationalen q_j\neq 0 hat, so erfüllt bei beliebiger Wahl von f(bj) die Funktion f(r):=\sum_{j\in J}q_j f(b_j) zwar f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2}, ist aber nicht notwendigerweise konvex.

Beschränktheit und Konvexität

Setzt man für eine Funktion f zusätzlich zur Bedingung dass für ein fixes \lambda\in(0,1)\! die Beziehung

f\left(\lambda x + (1-\lambda)y\right) \le \lambda f(x) + (1-\lambda) f(y)

für alle x,y aus einer konvexen Teilmenge C eines normierten Vektorraums gilt, noch voraus, dass f nach oben beschränkt ist, so folgt daraus bereits die Stetigkeit von f in den inneren Punkten von C. Anschaulich wird dies daraus klar, dass man an einer Unstetigkeitsstelle eine beliebig steile Verbindungsgerade zwischen zwei Funktionswerten ziehen kann, wobei die Funktion zwischen den beiden Werten unterhalb der Verbindungsgeraden und außerhalb der beiden Werte oberhalb der Verbindungsgerade liegen muss. Kann die Verbindungsgerade nun beliebig steil werden, so stößt man irgendwann über die obere Schranke der Funktion.

Formal ist der Beweis allerdings etwas komplizierter. Zunächst beachte man, dass aus den obigen Voraussetzungen für natürliche Zahlen n und

x=\lambda^n u+\left(1-\lambda^n\right)y

folgt, dass

f(x)\le \lambda^n f(u)+\left(1-\lambda^n\right)f(y)

bzw.

f(u)=f\left(\frac{1}{\lambda^n} x - \left(\frac{1}{\lambda^n}-1\right)y\right)\geq \frac{1}{\lambda^n} f(x) - \left(\frac{1}{\lambda^n}-1\right)f(y) .

Sei nun a ein beliebiger innerer Punkt von C und

B_\rho(a)=\lbrace x:\|x-a\|<\rho\rbrace\subseteq C

eine zur Gänze in C enthaltene offene Kugel um a. Wäre nun f nicht stetig in a, so gäbe es ein \varepsilon>0 sodass für jedes δ > 0 ein x existiert, sodass zwar \|a-x\|<\delta aber |f(x)-f(a)|>\varepsilon. Sein nun n\in\N so gewählt, dass

\frac{1}{\lambda^n}-1>\frac{M-f(a)}{\varepsilon},

wobei M eine obere Schranke für f sei. Wählt man nun \delta=\lambda^n \rho\!, so existiert also ein x mit

\|x-a\|<\lambda^n \rho

aber

|f(x)-f(a)|>\varepsilon.

Angenommen, f(x) > f(a) + ε. Dann gilt für y:=\frac{1}{\lambda^n}x-\left(\frac{1}{\lambda^n}-1\right)a

f(y)=f\left(\frac{1}{\lambda^n}x-\left(\frac{1}{\lambda^n}-1\right)a\right)\ge \frac{1}{\lambda^n} f(x) - \left(\frac{1}{\lambda^n}-1\right)f(a)> f(a)+\frac{1}{\lambda^n}\epsilon > M.

Das kann aber nicht sein, da \|y-a\|=\frac{1}{\lambda^n}\|x-a\|<\rho. Daher liegt y in C und es muss f(y) < M gelten.

Sei daher f(x) < f(a) − ε. Dann gilt für z:=\frac{1}{\lambda^n} a-\left(\frac{1}{\lambda^n}-1\right)x

f(z)=f\left(\frac{1}{\lambda^n} a-\left(\frac{1}{\lambda^n}-1\right)x\right)\ge \frac{1}{\lambda^n} f(a) - \left(\frac{1}{\lambda^n}-1\right)f(x)> f(a)+\left(\frac{1}{\lambda^n}-1\right)\epsilon > M.

Das kann aber auch nicht sein, da \|z-a\|=\left(\frac{1}{\lambda^n}-1\right)\|x-a\|<\rho. Daher liegt auch z in C und es muss ebenfalls f(z) < M gelten.

f muss daher stetig in a sein.

Die Aussage, dass eine konvexe beschränkte Funktion stetig in den inneren Punkten ist, ist auch bedeutsam für das Lösen der Cauchyschen Funktionalgleichung

f(x+y)=f(x)+f(y)\!
f(1)=a\!.

Aus dieser Aussage folgt nämlich, dass diese Funktionalgleichung eine eindeutige Lösung hat, wenn zusätzlich gefordert wird, dass f beschränkt ist.

Unendlichdimensionaler Fall

Im unendlichdimensionalen Fall brauchen konvexe Funktionen nicht stetig zu sein, da es lineare (also somit auch konvexe) Funktionale gibt, die nicht stetig sind. Allerdings gilt, dass beschränkte konvexe Funktionale eines normierten Vektorraums stetig sind.

Endlichdimensionaler Fall

Innere Punkte

Konvexe Funktionen f einer konvexen Teilmenge C des endlichdimensionalen reellen Vektorraums \R^n sind stetig in den inneren Punkten. Um das zu sehen, betrachte man einen inneren Punkt a\in C. Für diesen existiert ein Simplex S_n\subseteq C mit den Eckpunkten p_1,\dots,p_n,p_{n+1}, der a wieder als inneren Punkt enthält. Jeder Punkt x\in S_n ist aber in der Form

x=\sum_{j=1}^{n+1}t_jp_j

mit

tj = 1
j

und 0\le t_j\le 1 für alle j darstellbar. Nach der Jensenschen Ungleichung gilt nun

f(x)=f\left(\sum_{j=1}^{n+1}t_jp_j\right)\le\sum_{j=1}^{n+1}t_j f(p_j)\le\max f(p_j)=:M.

f ist daher nach oben beschränkt und somit, wie oben gezeigt wurde, stetig im inneren Punkt a.

Randpunkte

In Randpunkten können konvexe Funktionen unstetig sein, wie das Beispiel der Funktion [0,\infty)\to \R mit


f(x)=\begin{cases}1 \qquad \textrm{falls} \quad x=0 \\ 0 \qquad \textrm{sonst}\end{cases}

zeigt, die zwar konvex ist, aber am Randpunkt x = 0 eine Unstetigkeit aufweist.

Quellen


Weblinks

Wikipedia
Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Konvexe_und_konkave_Funktionen, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation.
Persönliche Werkzeuge