Cette th`ese ´etudie des mod`eles de s´equences de haute dimension bas´es sur des
r´eseaux de neurones r´ecurrents (RNN) et leur application `a la musique et `a la
parole. Bien qu’en principe les RNN puissent repr´esenter les d´ependances `a long
terme et la dynamique temporelle complexe propres aux s´equences d’int´erˆet comme
la vid´eo, l’audio et la langue naturelle, ceux-ci n’ont pas ´et´e utilis´es `a leur plein
potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la diffi-
cult´e de les entraˆıner efficacement par descente de gradient. R´ecemment, l’application
fructueuse de l’optimisation Hessian-free et d’autres techniques d’entraˆınement
avanc´ees ont entraˆın´e la recrudescence de leur utilisation dans plusieurs syst`emes
de l’´etat de l’art. Le travail de cette th`ese prend part `a ce d´eveloppement.