Skip to article frontmatterSkip to article content

Pré-requis

IVIA.AFRICA

Python est le langage de programmation préféré des Data Scientistes. Ils ont besoin d’un langage facile à utiliser, avec une disponibilité décente des bibliothèques et une grande communauté. Les projets ayant des communautés inactives sont généralement moins susceptibles de mettre à jour leurs plates-formes. Mais alors, pourquoi Python est populaire en Data Science ?

Python est connu depuis longtemps comme un langage de programmation simple à maîtriser, du point de vue de la syntaxe. Python possède également une communauté active et un vaste choix de bibliothèques et de ressources. Comme résultat, vous disposez d’une plate-forme de programmation qui est logique d’utiliser avec les technologies émergentes telles que l’apprentissage automatique (Machine Learning) et la Data Science.

Langage Python et ses Librairies

Python est un langage de programmation puissant et facile à apprendre. Il dispose de structures de données de haut niveau et permet une approche simple mais efficace de la programmation orientée objet. Parce que sa syntaxe est élégante, que son typage est dynamique et qu’il est interprété, Python est un langage idéal pour l’écriture de scripts quand on fait de l’apprentissage automatique et le développement rapide d’applications dans de nombreux domaines et sur la plupart des plate-formes.

Installation de Python et Anaconda

L’installation de Python peut-être un vrai challenge. Déjà il faut se décider entre les versions 2.X et 3.X du langage, par la suite, choisir les librairies nécessaires (ainsi que les versions compatibles) pour faire de l’apprentissage automatique (Machine Learning); sans oublier les subtilités liées aux différents Systèmes d’exploitation (Windows, Linux, Mac...) qui peuvent rendre l’installation encore plus “douloureuse”.

Dans cette partie nous allons installer pas à pas un environnement de développement Python en utilisant Anaconda[1]. A l’issue de cette partie, nous aurons un environnement de développement fonctionnel avec les librairies (packages) nécessaires pour faire de l’apprentissage automatique (Machine Learning).

Qu’est ce que Anaconda ?

L’installation d’un environnement Python complet peut-être assez complexe. Déjà, il faut télécharger Python et l’installer, puis télécharger une à une les librairies (packages) dont on a besoin. Parfois, le nombre de ces librairies peut-être grand. Par ailleurs, il faut s’assurer de la compatibilité entre les versions des différents packages qu’on a à télécharger. Bref, ce n’est pas amusant!

Alors Anaconda est une distribution Python. À son installation, Anaconda installera Python ainsi qu’une multitude de packages dont vous pouvez consulter la liste. Cela nous évite de nous ruer dans les problèmes d’incompatibilités entre les différents packages. Finalement, Anaconda propose un outil de gestion de packages appelé Conda. Ce dernier permettra de mettre à jour et installer facilement les librairies dont on aura besoin pour nos développements.

Téléchargement et Installation de Anaconda

Note: Les instructions qui suivent ont été testées sur Linux/Debian. Le même processus d’installation pourra s’appliquer pour les autres systèmes d’exploitation.

Pour installer Anaconda sur votre ordinateur, vous allez vous rendre sur le site officiel depuis lequel l’on va télécharger directement la dernière version d’Anaconda. Prenez la version du binaire qu’il vous faut :

Après le téléchargement, si vous êtes sur Windows, alors rien de bien compliqué double cliquez sur le fichier exécutable et suivez les instructions classique d’installation d’un logiciel sur Windows.

Si par contre vous êtes sur Linux, alors suivez les instructions qui suivent:

Après que l’installation se soit déroulée normalement, éditez le fichier caché .bashrc pour ajouter le chemin d’accès à Anaconda. Pour cela exécutez les commandes suivantes:

Maintenant que c’est fait, enregistrez le fichier et fermez-le. Puis exécutez les commandes suivantes:

Pour ce qui est de l’installation sur Mac, veuillez suivre la procédure d’installation dans la documentation d’Anaconda.

Il existe une distribution appelée Miniconda qui est un programme d’installation minimal gratuit pour conda. Il s’agit d’une petite version bootstrap d’Anaconda qui inclut uniquement conda, Python, les packages dont ils dépendent, et un petit nombre d’autres packages utiles.

Terminons cette partie en nous familiarisant avec quelques notions de la programmation Python.

Première utilisation de Anaconda

La distribution Anaconda propose deux moyens d’accéder à ses fonctions: soit de manière graphique avec Anaconda-Navigator, soit en ligne de commande (depuis Anaconda Prompt sur Windows, ou un terminal pour Linux ou MacOS). Sous Windows ou MacOs, démarrez Anaconda-Navigator dans le menu des programmes. Sous Linux, dans un terminal, tapez la commande : [$ anaconda-navigator]{style=“color: blue”} (cette commande est aussi disponible dans le prompt de Windows). Anaconda-Navigator propose différents services (déjà installés, ou à installer). Son onglet Home permet de lancer le service désiré. Les principaux services à utiliser pour développer des programmes Python sont :

Pour la prise en main de Python nous allons utiliser jupyter lab.

Prise en main de Python

Nous avons préparé un notebook qui nous permettra d’aller de zèro à demi Héros en Python. Le notebook se trouve ici.

Les Bases Mathématiques pour l’Apprentissage Automatique

Dans cette section, nous allons présenter les notions mathématiques essentielles à l’apprentissage automatique (machine learning). Nous n’aborderons pas les théories complexes des mathématiques afin de permettre aux débutants (en mathématiques) ou mêmes les personnes hors du domaine mais intéressées à l’apprentissage automatique de pouvoir en profiter.

Algèbre linéaire et Analyse

Définition d’espaces vectoriels. Un espace vectoriel est un triplet (V,+,)(V, +, *) formé d’un ensemble VV muni de deux lois,

+:V×VV(u,v)u+vet:K×VV, avec K un corps commutatif(λ,v)λv=λv\begin{aligned} +:\quad & V\times V \longrightarrow{V}\\ &(u,v)\mapsto u+v \\ \text{et} \qquad \qquad\\ *:\quad &\mathbb{K}\times V \longrightarrow{V}, \text{ avec $\mathbb{K}$ un corps commutatif}\\ &(\lambda,v)\mapsto \lambda * v=\lambda v \end{aligned}

qui vérifient:

 associativiteˊ de +:u,v,wV,(u+v)+w=u+(v+w) commutativiteˊ de +:u,vV,u+v=v+u existence d’eˊleˊment neutre pour +: eV:uV,u+e=e+u=u existence d’eˊleˊment opposeˊ pour +:uV, vV:u+v=v+u=0. On note v=u et v est appeleˊ l’opposeˊ de u existence de l’uniteˊ pour : eK tel que uV,eu=u associativiteˊ de * :(λ1,λ2,u)K×K×V,(λ1λ2)u=λ1(λ2u) somme de vecteurs (distributiviteˊ de  sur +:(λ,u,v)K×V×V,λ(u+v)=λu+λv somme de scalaires :(λ1,λ2,u)K×K×V,(λ1+λ2)u=λ1u+λ2u.\begin{aligned} &\bullet \text{ associativité de } + :\\ & \forall u,v, w \in V, \quad (u+v)+w=u+(v+w)\\ &\bullet \text{ commutativité de } + :\\ & \forall u,v\in V,\quad u+v=v+u\\ &\bullet \text{ existence d'élément neutre pour } + :\\ & \exists~ e \in V : \forall u \in V, \quad u+e=e+u=u\\ &\bullet \text{ existence d'élément opposé pour } + :\\ &\forall u \in V, \exists ~ v \in V :u+v=v+u=0. \text{ On note } v=-u \text{ et } v \text{ est appelé l'opposé de } u\\ &\bullet \text{ existence de l'unité pour } * :\\ & \exists~ e \in \mathbb{K} \text{ tel que } \forall u\in V,\quad e*u=u\\ &\bullet\text{ associativité de * } :\\ & \forall (\lambda_1, \lambda_2, u) \in \mathbb{K} \times \mathbb{K}\times V,\quad (\lambda_1 \lambda_2)* u =\lambda_1*(\lambda_2 * u)\\ &\bullet \text{ somme de vecteurs (distributivité de $*$ sur $+$) } :\\ & \forall (\lambda, u, v) \in \mathbb{K}\times V\times V, \quad\lambda*(u+v)=\lambda * u+\lambda * v\\ &\bullet\text{ somme de scalaires } :\\ & \forall (\lambda_1, \lambda_2, u) \in \mathbb{K} \times \mathbb{K}\times V,\quad (\lambda_1+\lambda_2) * u=\lambda_1 * u +\lambda_2 * u. \end{aligned}

Remarque 1: Les éléments de VV sont appelés des vecteurs, ceux de K\mathbb{K} sont appelés des scalaires et l’élément neutre pour ++ est appelé vecteur nul. Finalement, VV est appelé K\mathbb{K}-espace vectoriel ou espace vectoriel sur K\mathbb{K}.

Base d’un espace vectoriel. Soit VV un K\mathbb{K}-espace vectoriel. Une famille de vecteurs B={b1,b2,,bn}\mathcal{B}=\big\{b_1, b_2, \dots, b_n\big\} est appelée base de VV si les deux propriétés suivantes sont satisfaites:

Lorsque u=i=1ncibi\displaystyle u = \sum_{i=1}^{n}c_i b_i, on dit que c1,,cnc_1, \dots, c_n sont les coordonnées de uu dans la base B\mathcal{B}. Si de plus aucune confusion n’est à craindre, on peut écrire:

u=[c1c2cn]\begin{aligned} \mathbf{u}=\begin{bmatrix} c_1\\c_2\\ \vdots\\ c_n \end{bmatrix} \end{aligned}

Définition. Le nombre d’éléments dans une base d’un espace vectoriel est appelé dimension de l’espace vectoriel.

NB: Un espace vectoriel ne peut être vide (il contient toujours le vecteur nul). L’espace vectoriel nul {0}\{0\} n’a pas de base et est de dimension nulle. Tout espace vectoriel non nul de dimension finie admet une infinité de bases mais sa dimension est unique.

Exemples d’espaces vectoriels: Pour tous n,m1n,m\ge1, l’ensemble des matrices Mnm\mathcal{M}_{nm} à coefficients réels et l’ensemble Rn\mathbb{R}^n sont des R\mathbb{R}-espace vectoriels. En effet, il est très facile de vérifier que nos exemples satisfont les huit propriétés énoncées plus haut. Dans le cas particulier V=RnV=\mathbb{R}^n, toute famille d’exactement nn vecteurs linéairement indépendants en est une base. En revanche, toute famille de moins de nn vecteurs ou qui contient plus que nn vecteurs ne peut être une base de Rn\mathbb{R}^n.

Matrices: Soit K\mathbb{K} un corps commutatif. Une matrice en mathématiques à valeurs dans K\mathbb{K} est un tableau de nombres, où chaque nombre est un élément de K\mathbb{K}. Chaque ligne d’une telle matrice est un vecteur (élément d’un K\mathbb{K}-espace vectoriel). Une matrice est de la forme:

M=[a11a12a1na21a22a2nam1am2amn]\mathbf{M}=\begin{bmatrix} a_{11} &a_{12} \dots a_{1n}\\ a_{21} &a_{22} \dots a_{2n}\\ \vdots\\ a_{m1}& a_{m2} \dots a_{mn} \end{bmatrix}

On note aussi M=(aij)1im,1jn\mathbf{M}={(a_{ij}})_{1\le i\le m, 1\le j\le n}.

La matrice ci-dessus est carrée si m=nm=n. Dans ce cas, la suite [a11,a22,,amm][a_{11}, a_{22}, \dots, a_{mm}] est appelée diagonale de MM. Si tous les coefficients hors de la diagonale sont zéro, on dit que la matrice est diagonale. Une matrice avec tous ses coefficients nuls est dite matrice nulle.

Produit de matrices. Soient A=(aij)1im,1jn,B=(bij)1in,1jq\mathbf{A}={(a_{ij}})_{1\le i\le m, 1\le j\le n}, \mathbf{B}={(b_{ij}})_{1\le i\le n, 1\le j\le q} deux matrices. On définit le produit de A\mathbf{A} par B\mathbf{B} et on note A×B\mathbf{A}\times \mathbf{B} ou simplement AB\mathbf{A}\mathbf{B}, la matrice MM définie par:

Mij==1naibj, pour tout i et j.\begin{aligned} \mathbf{M}_{ij} = \sum_{\ell=1}^{n}a_{i\ell}b_{\ell j}, \text{ pour tout } i \text{ et } j. \end{aligned}

Important.

Exemple. Soient les matrices A\mathbf{A} et B\mathbf{B} définies par:

A=[2305115123]B=[135112]\mathbf{A} = \begin{bmatrix} 2 & -3 & 0\\ 5 &11 & 5\\ 1& 2 & 3 \end{bmatrix} \qquad \mathbf{B} = \begin{bmatrix} 1 & 3\\ -5 &1\\ 1 & 2 \end{bmatrix}

Le nombre de colonnes de la matrice A\mathbf{A} est égal au nombre de lignes de la matrice B\mathbf{B}.

AB\mathbf{AB} = [2×1+(3)×(5)+0×12×3+(3)×1+0×25×1+11×(5)+5×15×3+11×1+5×21×1+2×(5)+3×11×3+2×1+3×2]\begin{bmatrix} 2\times 1 + (-3)\times(-5) + 0\times 1 & 2\times3+(-3)\times1+0\times2\\ 5\times1+11\times(-5)+5\times1 &5\times3+11\times1+5\times2\\ 1\times1+2\times(-5)+3\times1& 1\times3+2\times1+3\times2 \end{bmatrix} = [1734533611]\begin{bmatrix} 17 & 3\\ -45 & 33\\ -6 & 11 \end{bmatrix}

Le produit BA\mathbf{BA} n’est cependant pas possible.

Somme de matrices et multiplication d’une matrice par un scalaire. La somme de matrices et multiplication d’une matrice par un scalaire se font coefficients par coefficients.

Avec les matrice A,B\mathbf{A}, \mathbf{B} de l’exemple précédent, et C=[27351051293]\mathbf{C}=\begin{bmatrix} -2 & -7 & 3\\ 5 &10 & 5\\ 12& 9 & 3 \end{bmatrix}, on a:

A+C=[2+(2)3+(7)0+35+511+105+51+122+93+3]=[010310211013116] et pour tout λR,λB=[λ3λ5λλλ2λ]\mathbf{A}+ \mathbf{C} = \begin{bmatrix} 2+(-2) & -3+(-7) & 0+3\\ 5+5 &11+10 & 5+5\\ 1+12& 2+9 & 3+3 \end{bmatrix}=\begin{bmatrix} 0 & -10 & 3\\ 10 &21 & 10\\ 13& 11 & 6 \end{bmatrix} \text{ et pour tout } \lambda \in \mathbb{R}, \quad \lambda \mathbf{B} = \begin{bmatrix} \lambda & 3 \lambda\\ -5 \lambda & \lambda\\ \lambda & 2\lambda \end{bmatrix}

NB: La somme de matrice n’est définie que pour des matrices de même taille.

Déterminant d’une matrice. Soit A=(aij)1in,1jn\mathbf{A}=(a_{ij})_{1\le i\le n, 1\le j\le n} une matrice carrée d’ordre nn. Soit Ai,j\mathbf{A}_{i,j} la sous-matrice de A\mathbf{A} obtenue en supprimant la ligne ii et la colonne jj de A\mathbf{A}. On appelle déterminant (au développement suivant la ligne ii) de A\mathbf{A} et on note det(A)\operatorname{det}(\mathbf{A}), le nombre

det(A)=j=1naij(1)i+jdet(Ai,j),\begin{aligned} \operatorname{det}(\mathbf{A}) = \sum_{j=1}^{n}a_{ij}(-1)^{i+j}\operatorname{det}(\mathbf{A}_{i,j}), \end{aligned}

avec le déterminant d’une matrice carrée de taille 2×22\times 2 donné par:

det([abcd])=adbc.\begin{aligned} \operatorname{det} \left(\begin{bmatrix} a & b\\ c & d\\ \end{bmatrix}\right) = ad-bc. \end{aligned}

NB: Le développement suivant toutes les lignes donne le même résultat. Le déterminant d’une matrice a une deuxième formulation dite de Leibniz que nous n’introduisons pas dans ce document.

Inverse d’une matrice. Soit A\mathbf{A} une matrice carrée d’ordre nn. A\mathbf{A} est inversible s’il existe une autre matrice notée A1\mathbf{A}^{-1} telle que AA1=A1A=In\mathbf{A}\mathbf{A}^{-1}=\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}_n, où In\mathbf{I}_n est la matrice identité de taille n×nn\times n. Les matrices, leurs inverses et les opérations sur les matrices sont d’une importance capitale dans l’apprentissage automatique.

Vecteurs propres, valeurs propres d’une matrice. Soient EE un espace vectoriel et A\mathbf{A} une matrice. Un vecteur vE\mathbf{v}\in E est dit vecteur propre de A\mathbf{A} si v0\mathbf{v}\neq 0 et il existe un scalaire λ\lambda tel que Av=λv\mathbf{A}\mathbf{v}=\lambda \mathbf{v}. Dans ce cas, on dit que λ\lambda est la valeur propre associée au vecteur propre v\mathbf{v}.

Applications linéaires et changement de base d’espaces vectoriels. Soient (E,B), (F,G)(E, \mathcal{B}),\ (F, \mathcal{G}) deux K\mathbb{K}-espace vectoriels, chacun muni d’une base et f: EFf:\ E \rightarrow F une application. On dit que ff est linéaire si les propriétés suivantes sont satisfaites:

  1. Pour tous u,vE\mathbf{u}, \mathbf{v}\in E, f(u+v)=f(u)+f(v)f(\mathbf{u}+\mathbf{v})=f(\mathbf{u})+f(\mathbf{v}).

  2. Pour tout (λ,u)K×E(\lambda, \mathbf{u}) \in \mathbb{K}\times E, f(λu)=λf(u)f(\lambda \mathbf{u})=\lambda f(\mathbf{u}).

On suppose que B={e1,e2,,en}\mathcal{B}=\{e_1, e_2, \dots, e_n\} et G={e1,e2,,em}\mathcal{G}=\{e'_1, e'_2, \dots, e'_m\}. De manière équivalente, ff est linéaire s’il existe une matrice A\mathbf{A} telle que pour tout xE,f(x)=Ax\mathbf{x}\in E, \quad f(x)=\mathbf{A}\mathbf{x}. Dans ce cas, la matrice A\mathbf{A} que l’on note MatB,G(f)Mat_{\mathcal{B},\mathcal{G}}(f) est appelée matrice (représentative) de l’application linéaire ff dans le couple de coordonnées (B,G)(\mathcal{B},\mathcal{G}). La matrice A\mathbf{A} est unique et de taille m×nm\times n (notez la permutation dimension de l’espace d’arrivée puis dimension de l’espace de départ dans la taille de la matrice). De plus, la colonne jj de la matrice A\mathbf{A} est constituée des coordonnées de f(ej)f(e_j) dans la base G\mathcal{G} de FF. Lorsque E=FE=F, l’application linéaire ff est appelée endomorphisme de EE et on écrit simplement MatB(f)Mat_{\mathcal{B}}(f) au lieu de MatB,G(f)Mat_{\mathcal{B},\mathcal{G}}(f).

Définition. Soient EE un espace vectoriel de dimension finie et, B\mathcal{B} et C\mathcal{C}, deux bases de EE. On appelle matrice de passage de la base B\mathcal{B} à la base C\mathcal{C} la matrice de l’application identité

idE:(E,C)(E,B)xx\begin{aligned} &id_E: (E, \mathcal{C})\rightarrow (E, \mathcal{B})\\ &x \mapsto x \end{aligned}

Cette matrice est notée PBCP_{\mathcal{B}}^{\mathcal{C}} et on a PBC:=MatC,B(idE)P_{\mathcal{B}}^{\mathcal{C}}:=Mat_{\mathcal{C},\mathcal{B}}(id_E). Note: Si x=[x1x2xn]\mathbf{x}=\begin{bmatrix} x_1\\x_2\\ \vdots\\ x_n \end{bmatrix} est un vecteur de EE exprimé dans la base B\mathcal{B}, alors l’expression de x\mathbf{x} dans la base C\mathcal{C} est donnée par [x1x2xn]=(PBC)1x=PCBx\begin{bmatrix} x'_1\\x'_2\\ \vdots\\ x'_n \end{bmatrix}=(P_{\mathcal{B}}^{\mathcal{C}})^{-1}\mathbf{x}=P_{\mathcal{C}}^{\mathcal{B}}\mathbf{x}.

Exemple. Si E=R3E=\mathbb{R}^3 avec ses deux bases

B=([100],[010],[001]) et C=([123],[015],[001]),\mathcal{B}=\left( \begin{bmatrix} 1\\0\\0 \end{bmatrix},\begin{bmatrix} 0\\1\\0 \end{bmatrix},\begin{bmatrix} 0\\0\\1 \end{bmatrix} \right) \text{ et } \mathcal{C}=\left( \begin{bmatrix} -1\\2\\3 \end{bmatrix},\begin{bmatrix} 0\\1\\5 \end{bmatrix},\begin{bmatrix} 0\\0\\1 \end{bmatrix} \right),

on a PBC=[100210351]P_{\mathcal{B}}^{\mathcal{C}} = \begin{bmatrix} -1&0&0\\ 2&1&0\\ 3&5&1 \end{bmatrix} (c’est-à-dire qu’on exprime les vecteurs de C\mathcal{C} dans B\mathcal{B} pour former PBCP_{\mathcal{B}}^{\mathcal{C}}).

Formule du changement de base pour une application linéaire. Soient EE une application linéaire et, B\mathcal{B} et C\mathcal{C}, deux bases de EE. Alors

MatC(f)=PCBMatB(f)PBC,\begin{aligned} Mat_{\mathcal{C}}(f)=P_{\mathcal{C}}^{\mathcal{B}} Mat_{\mathcal{B}}(f)P_{\mathcal{B}}^{\mathcal{C}}, \end{aligned}

ou encore

MatC(f)=(PBC)1MatB(f)PBC.\begin{aligned} Mat_{\mathcal{C}}(f)=(P_{\mathcal{B}}^{\mathcal{C}})^{-1} Mat_{\mathcal{B}}(f)P_{\mathcal{B}}^{\mathcal{C}}. \end{aligned}

Diagonalisation et décomposition en valeurs singulières.

Diagonalisation. Soit A\mathbf{A} une matrice carrée à coefficients dans K=R ou C\mathbb{K}=\mathbb{R} \text{ ou } \mathbb{C}. On dit que A\mathbf{A} est diagonalisable s’il existe une matrice inversible P\mathbf{P} et une matrice diagonale D\mathbf{D} telles que A=PDP1\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^{-1}. On dit aussi que A\mathbf{A} est similaire à D\mathbf{D}.

Important. Soient EE un espace vectoriel de dimension finie et ff un endomorphisme de EE de matrice représentative (dans une base B\mathcal{B} de EE) diagonalisable A=PDP1\mathbf{A}=\mathbf{P}\mathbf{D}\mathbf{P}^{-1}. On rappelle que les colonnes de P\mathbf{P} sont les vecteurs propres de A\mathbf{A}. Alors ces colonnes (dans leur ordre) constituent une base de EE, et dans cette base, la matrice A\mathbf{A} est représentée par la matrice diagonale D\mathbf{D}. En d’autres termes, si C\mathcal{C} est la base des vecteurs propres de A\mathbf{A}, alors MatC(f)=DMat_{\mathcal{C}}(f)=\mathbf{D}. Enfin, la matrice D\mathbf{D} est constituée des valeurs propres de A\mathbf{A} et le processus de calcul de P\mathbf{P} et D\mathbf{D} est appelé diagonalisation.

Décomposition en valeurs singulières. Soit M\mathbf{M} une matrice de taille m×nm\times n et à coefficients dans K=R ou C\mathbb{K}=\mathbb{R} \text{ ou } \mathbb{C}. Alors M\mathbf{M} admet une factorisation de la forme M=UΣV\mathbf{M}=\mathbf{U}\mathbf{\Sigma} \mathbf{V}^*, où

Cette factorisation est appelée la décomposition en valeurs singulières de M\mathbf{M}. Important. Si la matrice M\mathbf{M} est de rang rr, alors

Produit scalaire et normes vectorielles. Soit VV un espace vectoriel sur R\mathbb{R}. On appelle produit scalaire sur VV toute application

,:V×VR(u,v)u,v\begin{aligned} &\langle \cdot,\cdot \rangle &: V \times V \to \mathbb{R} \\ &(\mathbf{u},\mathbf{v}) &\mapsto \langle \mathbf{u},\mathbf{v} \rangle \end{aligned}

telle que,(λ1,λ2,u,v,w)R×R×V×V×V,\text{telle que,} \forall (\lambda_1, \lambda_2, \mathbf{u}, \mathbf{v}, \mathbf{w}) \in \mathbb{R}\times\mathbb{R}\times V\times V \times V,

Une application

.:VR+vv\begin{aligned} \|.\|: \quad&V\rightarrow{\mathbb{R_{+}}}\\ &\mathbf{v}\mapsto \|\mathbf{v}\| \end{aligned}

est appelée norme sur VV si  (λ,u,v)R×V×V\forall\ (\lambda, \mathbf{u}, \mathbf{v})\in \mathbb{R}\times V\times V

Remarque 2. Si .,.\langle.,.\rangle est un produit scalaire sur VV, alors .,.\langle.,.\rangle induit une norme sur VV. En effet,

..,.:VR+uu=u,u\begin{aligned} \|.\|_{\langle.,.\rangle}:\quad&V\rightarrow{\mathbb{R_{+}}}\\ & \mathbf{u}\mapsto \|\mathbf{u}\|=\sqrt{\langle\mathbf{u},\mathbf{u}\rangle} \end{aligned}

Exemples de normes et produits scalaires.
Prenons V=RnV=\mathbb{R}^n.
\bullet Les applications

ρ:V×VR(u,v)i=1nuivi\begin{aligned} \rho:\quad &V\times V\rightarrow{\mathbb{R}}\\ &(\mathbf{u},\mathbf{v})\mapsto \sum_{i=1}^{n}u_iv_i \end{aligned}

et

μ:VR+ui=1nui2\begin{aligned} \mu:\quad &V\rightarrow{\mathbb{R}_+}\\ &\mathbf{u}\mapsto \sqrt{\sum_{i=1}^{n}u_i^2} \end{aligned}

sont respectivement un produit scalaire et une norme sur VV.

Il faut remarquer que uV,μ(u)=ρ(u,u)\forall \mathbf{u} \in V, \quad \mu(\mathbf{u})=\sqrt{\rho(\mathbf{u},\mathbf{u})}.

\bullet Pour tout pNp\in \mathbb{N}^*, l’application

μp:VR+u(i=1nuip)1p\begin{aligned} \mu_p:\quad &V\rightarrow{\mathbb{R}_+}\\ &\mathbf{u}\mapsto \left(\sum_{i=1}^{n}|u_i|^p\right)^{\frac{1}{p}} \end{aligned}

est une norme sur VV appelée norme pp. Dans le cas p=2p=2, on retrouve la norme μ\mu ci-dessus appelée norme euclidienne.

Remarque 3. Un espace vectoriel muni d’une norme est appelé espace vectoriel normé.

Notion de distance. Soit EE un ensemble non vide. Toute application d: E×ER+d:~ E\times E \rightarrow\mathbb{R}_+ qui satisfait pour tout x,y,zEx, y, z \in E:

d(x,y)=d(y,x) (symeˊtrie)d(x,y)=0    x=y (seˊparation)d(x,y)d(x,z)+d(z,y) (ineˊgaliteˊ triangulaire)\begin{aligned} &d(x,y) = d(y,x) \text{ (symétrie)}\\ &d(x,y) = 0 \implies x=y\text{ (séparation)}\\ &d(x,y) \le d(x,z)+d(z,y) \text{ (inégalité triangulaire)} \end{aligned}

Exemples de distances.

\bullet

d:Rn×RnR+(u,v)(i=1nuivi).\begin{align} d:\quad &\mathbb{R}^n\times \mathbb{R}^{n}\rightarrow{\mathbb{R}_+}\nonumber\\ &(\mathbf{u}, \mathbf{v})\mapsto \left(\sum_{i=1}^{n}|u_i-v_i|\right). \end{align}

\bullet Distance Euclidienne. Elle est définie sur l’espace vectoriel Rn\mathbb{R}^n par

d:Rn×RnR+(u,v)(i=1nuivi2)12.\begin{align} d:\quad &\mathbb{R}^n\times \mathbb{R}^n\rightarrow{\mathbb{R}_+}\nonumber \\ &(\mathbf{u}, \mathbf{v})\mapsto \left(\sum_{i=1}^{n}|u_i-v_i|^2\right)^{\frac{1}{2}}. \end{align}

\bullet Distance de Minkowski.

C’est la généralisation de la distance euclidienne et de la distance de Manhattan

dMinkowski:Rn×RnR+(u,v)(i=1nuivip)1p,p1.\begin{align} d_{Minkowski}:\quad &\mathbb{R}^n\times \mathbb{R}^n\rightarrow{\mathbb{R}_+}\nonumber \\ &(\mathbf{u}, \mathbf{v})\mapsto \left(\sum_{i=1}^{n}|u_i-v_i|^p\right)^{\frac{1}{p}}, p\ge 1. \end{align}

Espaces métriques.
Définition. Un espace métrique est un ensemble EE muni d’une distance dd; on écrit (E,d)(E, d).
Remarque 4. Tout espace vectoriel normé est un espace métrique.
Suites dans un espace métrique.
Soit (E,d)(E,d) un espace métrique. On appelle suite (d’éléments de EE) et on note (un)nI(u_n)_{n\in I} ou (u)n(u)_n une application:

u:IEnu(n):=un\begin{aligned} u: \quad& I \rightarrow E\\ & n \mapsto u(n):=u_n \end{aligned}

II est une partie infinie de N\mathbb{N}. On dit que la suite (u)n(u)_n converge vers uEu^*\in E si pour tout ϵ>0\epsilon>0 il existe NNN \in \mathbb{N} tels que:

nN,n>Nd(un,u)<ϵ\begin{aligned} \forall n\in \mathbb{N}, \quad n>N \Longrightarrow d(u_n, u^*) < \epsilon \end{aligned}

En d’autres termes, la suite (u)n(u)_n converge vers uEu^*\in E si pour tout ϵ>0\epsilon>0, il existe un entier NNN\in \mathbb{N} tel que pour tout n>Nn>N, unu_n est contenu dans la boule Bϵ\mathcal{B}_{\epsilon} centrée en uu^* et de rayon ϵ\epsilon.

NB: La suite (u)n(u)_n à valeurs dans EE peut converger dans un ensemble autre que EE.
Définition. La suite (u)n(u)_n d’éléments de EE est dite de Cauchy si pour tout ϵ>0\epsilon>0, il existe NNN\in\mathbb{N} tel que:

n>mN,m>Nd(un,um)<ϵ.\begin{aligned} \forall n>m \in \mathbb{N},\quad m>N \Longrightarrow d(u_n, u_m)<\epsilon. \end{aligned}

Autrement dit, tous les termes un,umu_n, u_m d’une suite de Cauchy se rapprochent de plus en plus lorsque nn et mm sont suffisamment grands.
Espace métriques complets.
Définition. Un espace métrique (E,d)(E,d) est dit complet si toute suite de Cauchy de EE converge dans EE.
Un espace métrique complet est appelé espace de Banach.

Calcul du gradient (dérivation).

Fonction réelle.

Définition. Soit f:JRf: J\rightarrow \mathbb{R} une fonction, avec JJ un intervalle ouvert de R\mathbb{R}.
On dit que ff est dérivable en aJa\in J si la limite:

limh0f(a+h)f(a)h est finie.\begin{aligned} \lim_{h\rightarrow 0} \frac{f(a+h)-f(a)}{h} \text{ est finie.} \end{aligned}

Si ff est dérivable en aa, la dérivée de ff en aa est notée f(a).f'(a). La fonction dérivée de ff est notée ff' ou dfdx\frac{\mathrm{d}f}{\mathrm{d}x} ou df\mathrm{d}f.
Exemple de dérivées.

Propriétés. Soient JRJ\subseteq \mathbb{R} un intervalle ouvert, u, v :JRu,\ v\ : J\rightarrow \mathbb{R} deux fonctions et λR\lambda \in \mathbb{R}. Alors on a les propriétés suivantes de la dérivée:

  1. (u+v)=u+v(u+v)' = u'+v'

  2. (uv)=uv+uv(uv)' = uv'+u'v

  3. (λu)=λu(\lambda u)' = \lambda u'

Ces propriétés s’étendent aux fonctions vectorielles en dimension supérieure.

Fonctions vectorielles. Soit f:ORpf: \mathcal{O}\rightarrow \mathbb{R}^p une fonction, avec O\mathcal{O} une partie ouverte de Rn,n,p1\mathbb{R}^n, n, p\ge 1. On dit que ff est différentiable (au sens de Fréchet) en aO\mathbf{a}\in \mathcal{O}, s’il existe une application linéaire continue L:RnRpL: \mathbb{R}^n\rightarrow \mathbb{R}^p telle que pour tout hRnh\in \mathbb{R}^n, on a

limh0f(a+h)f(a)L(h)h=0.\begin{aligned} \lim_{h\rightarrow 0} \frac{f(\mathbf{a}+h)-f(\mathbf{a})-L(h)}{\|h\|}=0. \end{aligned}

Si ff est différentiable en tout point de O\mathcal{O}, on dit que ff est différentiable sur O\mathcal{O}.
La différentielle de ff est notée DfDf.
Dérivées partielles.
Soient a=[a1a2an]ORn\mathbf{a}=\begin{bmatrix} a_1\\ a_2\\ \vdots \\ a_n \end{bmatrix}\in \mathcal{O}\subseteq{\mathbb{R}^n} et f:ORpf: \mathcal{O}\rightarrow \mathbb{R}^p une fonction.

On dit que ff admet une dérivée partielle par rapport à la j-ème variable xjx_j si la limite:

limh0f(a1,a2,,aj+h,,an)f(a)h est finie.\begin{aligned} \lim_{h\rightarrow 0}\frac{f(a_1, a_2, \dots, a_j+h, \dots, a_n)-f(\mathbf{a})}{h} \text{ est finie.} \end{aligned}

La dérivée partielle par rapport à la variable xjx_j de ff en a\mathbf{a} est notée fxj(a)\frac{\partial f}{\partial x_j}(\mathbf{a}).
Note. Si ff est différentiable, alors ff admet des dérivées partielles par rapport à toutes les variables.
Gradient et Matrice Jacobienne. Soit f:ORnRpf: \mathcal{O}\subseteq\mathbb{R}^n \rightarrow \mathbb{R}^p une fonction différentiable.
On suppose que les fonctions composantes de ff sont f1,f2,,fpf_1, f_2, \dots, f_p.
Alors la matrice des dérivées partielles

[f1x1f1x2f1xnf2x1f2x2f2xnfpx1fpx2fpxn]\begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} &\dots & \frac{\partial f_1}{\partial x_n}\\[0.2cm] \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} &\dots & \frac{\partial f_2}{\partial x_n}\\ \vdots&\vdots& & \vdots\\ \frac{\partial f_p}{\partial x_1} & \frac{\partial f_p}{\partial x_2} &\dots & \frac{\partial f_p}{\partial x_n} \end{bmatrix}

est appelée la matrice jacobienne de ff, notée Jf\mathbf{J}_f ou J(f)\mathbf{J}(f).
Dans le cas p=1p=1, le vecteur [fx1fx2fxn]\begin{bmatrix} \frac{\partial f}{\partial x_1} \\[0.2cm] \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix} est appelé gradient\operatorname{\mathbf{gradient}} de ff et noté f\mathbf{\nabla} f ou grad(f)\operatorname{\mathbf{grad}}(f).
Exemples du calcul de dérivées et de gradients sur Rn\mathbb{R}^n.

Dérivées de fonctions composées.

Il existe souvent des fonctions dont le gradient ne peut facilement être calculé en utilisant les formules précédentes. Pour trouver le gradient d’une telle fonction, on va réécrire la fonction comme étant une composition de fonctions dont le gradient est facile à calculer en utilisant les techniques que nous allons introduire. Dans cette partie nous allons présenter trois formules de dérivation de fonctions composées.

Composition de fonctions à une seule variable. Soit f,g,h:RRf,g,h: \mathbb{R}\rightarrow\mathbb{R}, trois fonctions réelles telles que f(x)=g(h(x))f(x) = g(h(x)).

dfdx=dgdhdhdx\begin{aligned} \frac{\mathrm{d} f}{\mathrm{d} x} = \frac{\mathrm{d} g}{\mathrm{d} h}\frac{\mathrm{d} h}{\mathrm{d} x} \end{aligned}

Formule de dérivée totale. Soit f:Rn+1Rf:\mathbb{R}^{n+1}\rightarrow\mathbb{R} telle que f=f(x,u1(x),,un(x))f = f(x,u_1(x),\dots,u_n(x)) avec ui:RRu_i:\mathbb{R}\rightarrow\mathbb{R} alors

df(x,u1,,un)dx=fx+fu1du1dx+fu2du2dx++fundundx=fx+i=1nfuiduidx.\begin{aligned} \frac{\mathrm{d} f\left(x, u_{1}, \ldots, u_{n}\right)}{\mathrm{d} x}=\frac{\partial f}{\partial x}+\frac{\partial f}{\partial u_{1}} \frac{\mathrm{d} u_{1}}{\mathrm{d} x}+\frac{\partial f}{\partial u_{2}} \frac{\mathrm{d} u_{2}}{\mathrm{d} x}+\ldots+\frac{\partial f}{\partial u_{n}} \frac{\mathrm{d} u_{n}}{\mathrm{d} x}=\frac{\partial f}{\partial x}+\sum_{i=1}^{n} \frac{\partial f}{\partial u_{i}} \frac{\mathrm{d} u_{i}}{\mathrm{d} x}. \end{aligned}

Formule générale de dérivées de fonctions composées. Soit

f:RkRmxf(x)g:RnRkxg(x)\begin{aligned} \begin{array}{l} f :\mathbb{R}^{k} \rightarrow\mathbb{R}^{m} \\ \mathbf{x} \mapsto f(\mathbf{x}) \end{array} \begin{array}{l} g :\mathbb{R}^{n} \rightarrow\mathbb{R}^{k} \\ \mathbf{x} \mapsto g(\mathbf{x}) \end{array} \end{aligned}

x=(x1,,xn)\mathbf{x}=(x_1,\dots,x_n) , f(x)=(f1(x),,fm(x))f(\mathbf{x}) = (f_1(\mathbf{x}),\dots,f_m(\mathbf{x})) et g(x)=(g1(x),,gk(x))g(\mathbf{x}) = (g_1(x),\dots,g_k(x)).

Le gradient de f(g(x))f(g(\mathbf{x})) est défini comme suit:

xf(g(x))=[f1g1f1g2f1gkf2g1f2g2f2gkfmg1fmg2fmgk][g1x1g1x2g1xng2x1g2x2g2xngkx1gkx2gkxn]\begin{aligned} \frac{\partial}{\partial \mathbf{x}} \mathbf{f}(\mathbf{g}(\mathbf{x}))=\left[\begin{array}{cccc} \frac{\partial f_{1}}{\partial g_{1}} & \frac{\partial f_{1}}{\partial g_{2}} & \ldots & \frac{\partial f_{1}}{\partial g_{k}} \\ \frac{\partial f_{2}}{\partial g_{1}} & \frac{\partial f_{2}}{\partial g_{2}} & \cdots & \frac{\partial f_{2}}{\partial g_{k}} \\ \vdots &\vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial g_{1}} & \frac{\partial f_{m}}{\partial g_{2}} & \ldots & \frac{\partial f_{m}}{\partial g_{k}} \end{array}\right]\left[\begin{array}{cccc} \frac{\partial g_{1}}{\partial x_{1}} & \frac{\partial g_{1}}{\partial x_{2}} & \ldots & \frac{\partial g_{1}}{\partial x_{n}} \\ \frac{\partial g_{2}}{\partial x_{1}} & \frac{\partial g_{2}}{\partial x_{2}} & \cdots & \frac{\partial g_{2}}{\partial x_{n}} \\ \vdots &\vdots & \ddots & \vdots \\ \frac{\partial g_{k}}{\partial x_{1}} & \frac{\partial g_{k}}{\partial x_{2}} & \cdots & \frac{\partial g_{k}}{\partial x_{n}} \end{array}\right] \end{aligned}

Probabilités

La théorie des probabilités constitue un outil fondamental dans l’apprentissage automatique. Les probabilités vont nous servir à modéliser une expérience aléatoire, c’est-à-dire un phénomène dont on ne peut pas prédire l’issue avec certitude, et pour lequel on décide que le dénouement sera le fait du hasard.
Définition.
Une probabilité est une application sur P(Ω),\mathcal{P}(\Omega), l’ensemble des parties de Ω\Omega telle que:

Proposition. Soient AA et BB deux événements,

  1. SiA\operatorname{Si} A et BB sont incompatibles, P(AB)=P(A)+P(B).\operatorname{\mathbb{P}}(A \cup B)=\operatorname{\mathbb{P}}(A)+\operatorname{\mathbb{P}}(B).

  2. P(Ac)=1P(A)\operatorname{\mathbb{P}}\left(A^{c}\right)=1-\operatorname{\mathbb{P}}(A), avec AcA^{c} le complémentaire de AA.

  3. P()=0.\operatorname{\mathbb{P}}(\emptyset)=0.

  4. P(AB)=P(A)+P(B)P(AB).\operatorname{\mathbb{P}}(A \cup B)=\operatorname{\mathbb{P}}(A)+\operatorname{\mathbb{P}}(B)-\operatorname{\mathbb{P}}(A \cap B).

Preuve voir [Pardoux (2015)]
Ci-dessous une définition plus générale de probabilité, valable pour des espaces des événements possibles non dénombrables.
Définition. Soit AA une expérience alátoire et Ω\Omega l’espace des événements possibles associés. Une probabilité sur Ω\Omega est une application définie sur l’ensemble des événements, qui vérifie:

  • Axiome 1: 0P(A)10\leq \operatorname{\mathbb{P}}(A)\leq 1, pour tout événement AA;

  • Axiome 2: Pour toute suite d’événements (Ai)iN(A_i)_{i\in \operatorname{\mathbf{N}}}, deux à deux incompatibles,

    P(iNAi)=iNP(Ai);\begin{aligned} \operatorname{\mathbb{P}}\left(\bigcup_{i \in \operatorname{\mathbf{N}}} A_{i}\right)=\sum_{i \in \operatorname{\mathbf{N}}} \operatorname{\mathbb{P}}\left(A_{i}\right); \end{aligned}
  • Axiome 3: P(Ω)=1.\operatorname{\mathbb{P}}(\Omega) = 1.

NB:\mathrm{NB}: Les événements (Ai)iN\left(A_{i}\right)_{i \in \operatorname{\mathbf{N}}} sont deux à deux incompatibles, si pour tous ij,AiAj=i \neq j, A_{i} \cap A_{j}=\emptyset.

Indépendance et conditionnement.

Motivation. Quelle est la probablité d’avoir un cancer du poumon?

Information supplémentaire: vous fumez une vingtaine de cigarettes par jour. Cette information va changer la probabilité.

L’outil qui permet cette mise à jour est la probabilité conditionnelle.

Définition.
Étant donnés deux événements AA et BB, avec P(A)>0\operatorname{\mathbb{P}}(A) > 0, on appelle probabilité de BB conditionnellement à AA, ou sachant A,A, la probabilité notée P(BA)\operatorname{\mathbb{P}}(B \mid A) définie par:

P(BA)=P(AB)P(A).\operatorname{\mathbb{P}}(B \mid A)=\frac{\operatorname{\mathbb{P}}(A \cap B)}{\mathbb{P}(A)}.

L’équation (36) peut aussi s’écrire comme P(AB)=P(BA)P(A)\mathbb{P}(A \cap B)=\mathbb{P}(B \mid A) \mathbb{P}(A).
De plus, la probabilité conditionnelle sachant AA, notée P(.A)\mathbb{P}(. \mid A) est une nouvelle probabilité et possède toutes les propriétés d’une probabilité.

Proposition. (Formule des probabilités totales généralisée)
Soit (Ai)iI(A_i)_{i\in I} (II un ensemble fini d’indices) une partition de Ω\Omega telle que 0<P(Ai)1iI.0 < \mathbb{P}(A_i)\leq 1 \quad\forall i\in I. Pour tout événement B, on a

P(B)=iIP(BAi)P(Ai).\begin{aligned} \mathbb{P}(B)=\sum_{i \in I} \mathbb{P}\left(B|A_{i}\right)\mathbb{P}\left(A_{i}\right). \end{aligned}

La formule des probabilités totales permet de servir les étapes de l’expérience aléatoire dans l’ordre chronologique.

Proposition. (Formule de Bayes généralisée)
Soit (Ai)iI(A_i)_{i\in I} une partition de Ω\Omega tel que 0P(Ai)1,iI0\leq \mathbb{P}(A_{i})\leq 1,\forall i\in I. Soit un événement BB, tel que P(B)>0\mathbb{P}(B)>0. Alors pour tout iIi\in I,

P(AiB)=P(BAi)P(Ai)iIP(BAi)P(Ai).\mathbb{P}(A_{i}|B)=\frac{ \mathbb{P}\left(B|A_{i}\right)\mathbb{P}\left(A_{i}\right)}{\sum_{i \in I} \mathbb{P}\left(B|A_{i}\right)\mathbb{P}\left(A_{i}\right)}.

Définition.

Deux événements AA et BB sont dits indépendants si

P(AB)=P(A)P(B).\begin{aligned} \mathbb{P}(A\cap B) = \mathbb{P}(A)\mathbb{P}(B). \end{aligned}

S’ils sont de probabilité non nulle, alors

P(BA)=P(B)P(AB)=P(A)P(AB)=P(A)P(B).\begin{aligned} \mathbb{P}(B|A) = \mathbb{P}(B) \Leftrightarrow \mathbb{P}(A|B) = \mathbb{P}(A) \Leftrightarrow \mathbb{P}(A\cap B) = \mathbb{P}(A)\mathbb{P}(B). \end{aligned}

Variables aléatoires.

Définition. Une variable aléatoire (v.a) XX est une fonction définie sur l’espace fondamental Ω\Omega, qui associe une valeur numérique à chaque résultat de l’expérience aléatoire étudiée. Ainsi, à chaque événement élémentaire ω\omega, on associe un nombre X(ω)X(\omega).

Une variable qui ne prend qu’un nombre dénombrable de valeurs est dite discrète (par exemple le résultat d’une lancée d’une pièce de monnaie, ...), sinon, elle est dite continue (par exemple le prix d’un produit sur le marché au fil du temps, distance de freinage d’une voiture roulant à 100 km/h).

Variable aléatoire discrète

Définition. L’espérance mathématique ou moyenne d’une v.a discrète XX est le réel

E[X]=k=0kP[X=k].\begin{aligned} \mathbb{E}[X] = \sum_{k=0}^{\infty} k \mathbb{P}[X = k]. \end{aligned}

Pour toute fonction gg,

E[g(X)]=k=0g(k)P[X=k].\begin{aligned} \mathbb{E}[g(X)] = \sum_{k=0}^{\infty} g(k) \mathbb{P}[X = k]. \end{aligned}

Définition. La variance d’une v.a discrète XX est le réel positif

Var[X]=E[(XE[X])2]=k=0(kE[X])2P[X=k]=E[X2]E[X]2\begin{aligned} Var[X] = \mathbb{E}\left[(X-\mathbb{E}[X])^2\right] = \sum_{k=0}^{\infty} \left(k-\mathbb{E}[X]\right)^2 \mathbb{P}[X = k] = \mathbb{E}[X^2] - \mathbb{E}[X]^2 \end{aligned}

et l’écart-type de XX est la racine carrée de sa variance.

Exemple: (Loi de Bernoulli) La loi de Bernoulli est fondamentale pour la modélisation des problèmes de classification binaire en apprentissage automatique. On étudie que les expériences aléatoires qui n’ont que deux issues possibles (succès ou échec). Une expérience aléatoire de ce type est appelée une épreuve de Bernoulli. Elle se conclut par un succès si l’évènement auquel on s’intéresse est réalisé ou un échec sinon. On associe à cette épreuve une variable aléatoire YY qui prend la valeur 1 si l’évènement est réalisé et la valeur 0 sinon. Cette v.a. ne prend donc que deux valeurs (0 et 1) et sa loi est donnée par :

P[Y=1]=p,P[Y=0]=q=1p.Avecp[0,1].\begin{aligned} \mathbb{P}[Y=1]=p, \quad \mathbb{P}[Y=0]=q=1-p.\qquad \operatorname{Avec } p \in [0, 1]. \end{aligned}

On dit alors que YY suit une loi de Bernoulli de paramètre p,p, notée B(p)\mathcal{B}(p). La v.a. YY a pour espérance pp et pour variance p(1p).p(1-p) .

En effet,

E[Y]=0×(1p)+1×p=p\begin{aligned} \mathbb{E}[Y]=0 \times(1-p)+1 \times p=p \end{aligned}

et

Var(Y)=E[Y2]E[Y]2=E[Y]E[Y]2=p(1p).\begin{aligned} \operatorname{Var}(Y)=\mathbb{E}\left[Y^{2}\right]-\mathbb{E}[Y]^{2}=\mathbb{E}[Y]-\mathbb{E}[Y]^{2}=p(1-p). \end{aligned}

Schéma de Bernoulli:

Variable aléatoire continue

Contrairement aux v.a. discrètes, les v.a. continues sont utilisées pour mesurer des grandeurs “continues” (comme distance, masse, pression...). Une variable aléatoire continue est souvent définie par sa densité de probabilité ou simplement densité. Une densité ff décrit la loi d’une v.a XX en ce sens:

a,bR,P[aXb]=abf(x)dx\forall a,b \in \mathbb{R}, \quad \mathbb{P}[a\leq X \leq b] = \int_{a}^{b} f(x)dx

et

xR,F(x)=P[Xx]=xf(t)dt\forall x\in \mathbb{R}, \quad F(x) = \mathbb{P}[X\leq x] = \int_{-\infty}^{x} f(t)dt

. On en déduit qu’une densité doit vérifier

xR,f(x)0 et Rf(x)dx=1\forall x\in \mathbb{R}, \quad f(x)\geq 0 \text{ et } \int_{\mathbb{R}}^{} f(x)dx = 1

.

Définition. On appelle densité de probabilité toute fonction réelle positive, d’intégrale 1.

Définition. L’espérance mathématiques de la v.a XX est définie par

E[X]=Rxf(x)dx.\mathbb{E}[X]=\int_{\mathbb{R}}^{} xf(x)dx.

Exemple.

La loi normale C’est la loi de probabilité la plus importante. Son rôle est central dans de nombreux modèles probabilistes et en statistique. Elle possède des propriétés intéressantes qui la rendent agréable à utiliser. La densité d’une variable aléatoire suivant la loi normale de moyenne μ\mu et d’écart-type σ\sigma (N(μ,σ2)\mathcal{N}(\mu,\sigma^2)) est définie par

f(x)=1σ2πexp((xμ)22σ2),xR.f(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad \forall x \in \mathbb{R}.

Quand μ=0etσ=1\mu=0 \quad \text{et} \quad \sigma = 1, on parle de loi normale centrée et réduite.

Loi des grands nombres

Considérons une suite (Xn)n1\left(X_{n}\right)_{n \geq 1} de v.a. indépendantes et de même loi. Supposons que ces v.a. ont une espérance, mm et une variance, σ2\sigma^{2}.

Théorème.

E[i=1nXi]=nm\mathbb{E}\left[\sum_{i=1}^{n} X_i\right] = nm

Var[i=1nXi]=nσ2\operatorname{Var}\left[\sum_{i=1}^{n} X_i\right] = n\sigma^2

Définition. La moyenne empirique des v.a. X1,,XnX_1,\dots,X_n est la v.a.

Xnˉ=X1++Xnn.\bar{X_n} = \frac{X_1+\dots + X_n}{n}.

On sait d’ores et déjà que la moyenne empirique a pour espérance mm et pour variance σ2n\frac{\sigma^2}{n}. Ainsi, plus nn est grand, moins cette v.a. varie. A la limite, quand nn tend vers l’infini, elle se concentre sur son espérance, mm. C’est la loi des grands nombres.

Théorème. (Convergence en Probabilité) Quand nn est grand, Xnˉ\bar{X_n} est proche de mm avec une forte probabilité. Autrement dit,

ε0,limnP(Xnˉm>ε)=0.\forall \varepsilon \ge 0, \quad \lim\limits_{n\to\infty} \mathbb{P}(|\bar{X_n}-m|> \varepsilon) = 0.

Théorème central limite

Le Théorème central limite est très important en apprentissage automatique. Il est souvent utilisé pour la transformation des données surtout au traitement de données aberrantes.

Théorème. Pour tous réels a<ba<b, quand nn tend vers ++\infty,

P(aXˉnmσ/nb)ab12πex2/2dx.\mathbb{P}\left(a \leq \frac{\bar{X}_{n}-m}{\sigma / \sqrt{n}} \leq b\right) \longrightarrow \int_{a}^{b} \frac{1}{\sqrt{2 \pi}} e^{-x^{2} / 2} \mathrm{d} x.

On dit que Xˉnmσ/n\displaystyle \frac{\bar{X}_{n}-m}{\sigma / \sqrt{n}} converge en loi vers la loi normale N(0,1)\mathcal{N}(0,1).

Intervalles de confiance

Soit XX un caractère (ou variable) étudié sur une population, de moyenne mm et de variance σ2\sigma^2. On cherche ici à donner une estimation de la moyenne mm de ce caractère, calculée à partir de valeurs observées sur un échantillon (X1,...,Xn)(X_1, ..., X_n). La fonction de l’échantillon qui estimera un paramètre est appelée estimateur, son écart-type est appelé erreur standard et est noté SE. L’estimateur de la moyenne mm est la moyenne empirique:

1ni=1nXi\frac{1}{n}\sum_{i=1}^{n} X_i

D’après les propriétés de la loi normale, avec un erreur α=5%\alpha = 5\% quand nn est grand on sait que

P[m2σ/nXnˉm+2σ/n]=1α=0.954\begin{aligned} \mathbb{P}\left[m-2\sigma/ \sqrt{n}\leq \bar{X_n}\leq m+2\sigma/ \sqrt{n}\right] = 1- \alpha = 0.954 \end{aligned}

ou, de manière équivalente,

P[Xnˉ2σ/nmXnˉ+2σ/n]=1α=0.954\begin{aligned} \mathbb{P}\left[\bar{X_n}-2\sigma/ \sqrt{n}\leq m\leq \bar{X_n}+2\sigma/ \sqrt{n}\right] = 1- \alpha = 0.954 \end{aligned}

Ce qui peut se traduire ainsi: quand on estime mm par Xnˉ\bar{X_n}, l’erreur faite est inférieure à 2σ/n2\sigma/ \sqrt{n}, pour 95,4%95,4\% des échantillons. Ou avec une probabilité de 95,4%95,4\%, la moyenne inconnue mm est dans l’intervalle [Xnˉ2σ/n, Xnˉ+2σ/n]\left[\bar{X_n}-2\sigma/ \sqrt{n},\ \bar{X_n}+2\sigma/ \sqrt{n}\right]. Voir [Anirban (2011)] pour plus d’explication.

Définition. On peut associer à chaque incertitude α\alpha, un intervalle appelé intervalle de confiance de niveau de confiance 1α1 - \alpha, qui contient la vraie moyenne mm avec une probabilité égale à 1α1 - \alpha.

Définition. Soit ZZ une v.a.. Le fractile supérieur d’ordre α\alpha de la loi de ZZ est le réel zz qui vérifie

P[Zz]=α\mathbb{P}\left[Z\geq z\right] = \alpha

Le fractile inférieur d’ordre α\alpha de la loi ZZ est le réel zz qui vérifie

P[Zz]=α.\mathbb{P}\left[Z\leq z\right] = \alpha.

Quand l’écart-type théorique de la loi du caractère XX étudié n’est pas connu, on l’éstime par l’écart-type empirique sn1s_{n-1}. Comme on dispose d’un grand échantillon, l’erreur commise est petite. L’intervalle de confiance, de niveau de confiance 1α1-\alpha devient :

[xˉnzα/2sn1n, xˉn+zα/2sn1n]\left[\bar{x}_{n}-z_{\alpha / 2} \frac{s_{n-1}}{\sqrt{n}}, \ \bar{x}_{n}+z_{\alpha / 2} \frac{s_{n-1}}{\sqrt{n}}\right]

sn12=1n1i=1n(xixˉ)2.s_{n-1}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}.

Estimations paramétriques

Soit (Ω,A,P)(\Omega,\mathcal{A},\mathbf{P}) un espace probabilisé et x\mathbf{x} une v.a.v.a. de (Ω,A)(\Omega,\mathcal{A}) dans (E,E)(E,\mathcal{E}). La donnée d’un modèle statistique c’est la donnée d’une famille de probabilités sur (E,E)(E,\mathcal{E}), {Pθ,θΘ}\{\mathbb{P}_{\theta},\theta\in\Theta\}. Le modèle étant donné, on suppose alors que la loi de x\mathbf{x} appartient au modèle {Pθ,θΘ}\{\mathbf{P}_{\theta},\theta\in\Theta\}. Par exemple dans le modèle de Bernoulli, x=(x1,,xn)\mathbf{x} = (x_1,\dots,x_n) où les xix_i sont i.i.d.i.i.d. (indépendantes et identiquement distribuées) de loi de Bernoulli de paramètre θ]0,1]\theta\in\left]0,1\right]. E={0,1}nE = \{0,1\}^n, E=P(E)\mathcal{E} = \mathcal{P}(E), Θ=]0,1]\Theta = \left]0,1\right] et Pθ=((1θ)δ0+θδ1)n.P_{\theta}=\left((1-\theta) \delta_{0}+\theta \delta_{1}\right)^{\otimes n}.

Définition. On dit que le modèle {Pθ,θΘ}\left\{\mathbb{P}_{\theta},\theta\in\Theta\right\} est identifiable si l’application

Θ{Pθ,θΘ}θPθ\begin{array}{l} \Theta \rightarrow\left\{P_{\theta}, \theta \in \Theta\right\} \\ \theta \mapsto P_{\theta} \end{array}

est injective.

Définition. Soit g: ΘRkg:\ \Theta\rightarrow\mathbb{R}^k. On appelle estimateur de g(θ)g(\theta) au vu de l’observation xx, toute application T:ΩRkT : \Omega\rightarrow \mathbb{R}^k de la forme T=h(x)T = h(x)h:ERkh : E\mapsto\mathbb{R}^k mesurable. Un estimateur ne doit pas dépendre de la quantité g(θ)g(\theta) que l’on cherche à estimer. On introduit les propriètés suivantes d’un estimateur.

Définition. TT est un estimateur sans biais de g(θ)g(\theta) si pour tout θΘ,Eθ[T]=g(θ)\theta \in\Theta,\quad \mathbb{E}_{\theta}[T] = g(\theta).

Dans le cas contraire, on dit que l’estimateur TT est biaisé et on appelle biais la quantité Eθ[T]g(θ)\mathbb{E}_{\theta}[T] - g(\theta).

Généralement x\mathbf{x} est un vecteur (x1,,xn)\left(x_{1}, \ldots, x_{n}\right) d’observations (n(n étant le nombre d’entre elles). Un exemple important est le cas où x1,,xnx_{1},\ldots, x_{n} forme un nn-échantillon c’est à dire lorsque que x1,,xnx_{1}, \ldots, x_{n} sont i.i.d. On peut alors regarder des propriétés asymptotiques de l’estimateur, c’est-à-dire en faisant tendre le nombre d’observations nn vers ++\infty. Dans ce cas, il est naturel de noter T=TnT = T_n comme dépendant de nn. On a alors la définition suivante :

Définition. TnT_n est un estimateur consistant de g(θ)g(\theta) si pour tout θΘ\theta \in \Theta, TnT_n converge en probabilité vers g(θ)g(\theta) sous PθP_{\theta} lorsque nn\to\infty.

On définit le risque quadratique de l’estimateur dans le cas où g(θ)Rg(\theta)\in\mathbb{R}.

Définition. Soit TnT_n un estimateur de g(θ)g(\theta). Le risque quadratique de TnT_n est défini par

R(Tn,g(θ))=Eθ[(Tng(θ))2]R(T_n,g(\theta)) = \mathbb{E}_{\theta}[(T_n - g(\theta))^2]

Estimation par la méthode des moments

Considérons un échantillon x=(x1,,xn)\mathbf{x} = (x_1,\dots,x_n). Soit f=(f1,,fk)f = (f_1,\dots,f_k) une application de X\mathcal{X} dans Rk\mathbb{R}^k tel que le modèle {Pθ,θΘ}\{\mathbb{P}_{\theta},\theta\in\Theta\} est identifiable si l’application Φ\Phi

Φ: ΘRk   θΦ(θ)=Eθ[f(x)]\begin{array}{l} \Phi: ~\Theta \rightarrow \mathbb{R}^k \\ \quad ~~~\theta \mapsto \Phi(\theta) = \mathbb{E}_{\theta}[f(x)] \end{array}

est injective. On définit l’estimateur θ^n\hat{\theta}_n comme la solution dans Θ\Theta (quand elle existe) de l’équation

Eθ[f(x)]1ni=1nf(xi).\mathbb{E}_{\theta}[f(\mathbf{x})]\approx \frac{1}{n}\sum_{i=1}^{n} f(x_i).

Souvent, lorsque XR,\mathcal{X}\subset \mathbb{R}, on prend fi(x)=xif_i(x) = x^i et Φ\Phi correspond donc au ième moment de la variable de XiX_i sous Pθ\mathbb{P}_{\theta}. Ce choix justifie le nom donné à la méthode. Voici quelques exemples d’estimateurs bâtis sur cette méthode.

Exemple. (Loi uniforme)

Ici k=1k=1, QθQ_{\theta} est la loi uniforme sur [0,θ][0,\theta] avec θ>0\theta > 0. On a pour tout θ\theta, Eθ[X1]=θ2\displaystyle \mathbb{E}_{\theta}[X_1] = \frac{\theta}{2}, on peut donc prendre par exemple Φ(θ)=θ2\displaystyle \Phi(\theta) = \frac{\theta}{2} et f(x)=xf(x) = x. L’estimateur obtenu par la méthode des moments est alors θ^n=2Xnˉ\hat{\theta}_n =2\bar{X_n}. Cet estimateur est sans biais et constant.

Exemple. (Loi normale) Ici k=2k=2, on prend Qθ=N(m,σ2)Q_{\theta} = \mathcal{N}(m,\sigma^2) avec θ=(m,σ2)R×R+\theta = (m,\sigma^2)\in\mathbb{R}\times\mathbb{R}_{+}^{*}. Pour tout θ\theta, Eθ[X1]=m\mathbb{E}_{\theta}[X_1] = m et Eθ[X12]=m2+σ2\mathbb{E}_{\theta}[X_1^2] = m^2 + \sigma^2 , on peut donc prendre par exemple, f1(x)=xf_1(x) = x et f2(x)=x2f_2(x) = x^2 ce qui donne Φ(m, σ2)=(m,m2+σ2)\Phi(m,\ \sigma^2) = (m,m^2+\sigma^2). L’estimateur obtenu par la méthode des moments vérifie

m^n=Xˉn et m^n2+σ^n2=1ni=1nXi2\hat{m}_{n}=\bar{X}_{n} \text { et } \hat{m}_{n}^{2}+\hat{\sigma}_{n}^2=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}

c’est-à-dire

θ^n=(Xˉn, 1ni=1n(XiXˉn)2)\hat{\theta}_{n}=\left(\bar{X}_{n},\ \frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}_{n}\right)^{2}\right)

L’estimateur est consistant mais l’estimateur de la variance est biaisé.

Estimation par maximum de vraisemblance

Soit {E, E, {Pθ, θΘ}}\{E,\ \mathcal{E},\ \{P_{\theta},\ \theta\in\Theta\}\} un modèle statistique, où ΘRk\Theta\subset\mathbb{R}^k. On suppose qu’il existe une mesure σ\sigma-finie μ\mu qui domine le modèle, c’est à dire que θΘ\forall \theta\in\Theta, PθP_{\theta} admet une densité par rapport à μ\mu.

Définition.
Soit x\mathbf{x} une observation. On appelle vraisemblance de x\mathbf{x} l’application

ΘR+θP(θ, x)\begin{array}{l} \Theta \rightarrow\mathbb{R}_+ \\ \theta \mapsto \mathbb{P}(\theta,\ \mathbf{x}) \end{array}

On appelle estimateur du maximum de vraisemblance de θ\theta, tout élément θ^\hat{\theta} de Θ\Theta maximisant la vraisemblance, c’est à dire vérifiant

θ^=argmaxθΘ P(θ, x)\hat{\theta} = \arg \underset{\theta\in\Theta}{\max}\ \mathbf{P}(\theta,\ \mathbf{x})

Considérons le cas typique où x=(x1,,xn),\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right), les xix_{i} formant un nn-échantillon de loi Qθ0Q_{\theta_{0}}Qθ0Q_{\theta_{0}} est une loi sur X\mathcal{X} de paramètre inconnu θ0Θ\theta_{0} \in \Theta \subset Rk.\mathbb{R}^{k} . On suppose en outre que pour tout θΘ,Qθ\theta \in \Theta, Q_{\theta} est absolument continue par rapport à une mesure ν\nu sur X\mathcal{X}. Dans ce cas, en notant

q(θ,x)=dQθdν(x)q(\theta, x)=\frac{d Q_{\theta}}{d \nu}(x)

et en prenant μ=νn\mu=\nu^{\otimes n} on a la vraisemblance qui s’écrit sous la forme

P(θ,x)=i=1nq(θ,xi)\mathbb{P}(\theta, \mathbf{x})=\prod_{i=1}^{n} q\left(\theta, x_{i}\right)

et donc

θ^n=argmaxθΘ1ni=1nlog[q(θ,xi)]\hat{\theta}_{n}=\arg \max _{\theta \in \Theta} \frac{1}{n} \sum_{i=1}^{n} \log \left[q\left(\theta, x_{i}\right)\right]

avec la convention log(0)=.\log (0)=-\infty .

Exemple. (Modèle de Bernoulli)

Soit Qθ0=B(θ)Q_{\theta_{0}}=\mathcal{B}(\theta) avec θ[0,1]=Θ\theta \in[0,1]=\Theta. Pour tout θ]0,1[\theta \in] 0,1[ et x{0,1}x \in\{0,1\}

q(θ,x)=θx(1θ)1x=(1θ)exp[xlog(θ1θ)]q(\theta, x)=\theta^{x}(1-\theta)^{1-x}=(1-\theta) \exp \left[x \log \left(\frac{\theta}{1-\theta}\right)\right]

et donc l’estimateur du maximum de vraisemblance doit maximiser dans l’intervalle [0,1].

log(θSn(1θ)nSn)=Snlog(θ1θ)+nlog(1θ)\log \left(\theta^{S_{n}}(1-\theta)^{n-S_{n}}\right)=S_{n} \log \left(\frac{\theta}{1-\theta}\right)+n \log (1-\theta)

avec Sn=ixiS_n = \sum_{i} x_i ce qui conduit à θ^n=xˉ\hat{\theta}_{n}=\bar{\mathbf{x}} en résolvant l’équation log(q(θ,x))=0\nabla \log(q(\theta, x)) = 0.

Anirban, DasGupta. 2011. Probability for Statistics and Machine Learning. Springer.

Pardoux, Etienne. 2015. Intégration Set Probabilité. Université Aix Marseille.

Footnotes
References
  1. Pardoux, E. (2015). Intégration set Probabilité. Université Aix Marseille.
  2. Anirban, D. (2011). Probability for Statistics and Machine Learning. Springer.