You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: _doc/practice/ml/pretraitement_son.ipynb
+1-13Lines changed: 1 addition & 13 deletions
Original file line number
Diff line number
Diff line change
@@ -134,7 +134,7 @@
134
134
"\n",
135
135
"Cette méthode s'apparente à une [transfer learning](https://en.wikipedia.org/wiki/Transfer_learning). Quand on dispose de peu de données, il est difficile d'apprendre un modèle performant sur des données complexes type image ou son. En revanche, on peut utiliser la sortie d'un modèle appris sur des grandes quantité de données et les utiliser comme feature. On parle d' *embedding*.\n",
136
136
"\n",
137
-
"Le package [transformers](https://huggingface.co/docs/transformers/en/index) offre plein de modèle de traitement de son, reconnaissance de la parole et autres traitements, il faut choisir un modèle qui s'approche de la tâche à réaliser par la suite. L'exemple suivant considère un petit modèle [distil-wav2vec2](https://huggingface.co/OthmaneJ/distil-wav2vec2) et transcrit le son en mots. Ce n'est pas le plus performant car c'est un petit modèle. On peut utiliser comme features la sortie du préprocesseur, celle du modèle... Tout dépend de ce qui suit."
137
+
"Le package [transformers](https://huggingface.co/docs/transformers/en/index) offre plein de modèle de traitement de son, reconnaissance de la parole et autres traitements, il faut choisir un modèle qui s'approche de la tâche à réaliser par la suite. L'exemple suivant considère un petit modèle [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) et transcrit le son en mots. Ce n'est pas le plus performant car c'est un petit modèle. On peut utiliser comme features la sortie du préprocesseur, celle du modèle... Tout dépend de ce qui suit."
Copy file name to clipboardExpand all lines: _doc/practice/ml/pretraitement_texte.ipynb
+2-2Lines changed: 2 additions & 2 deletions
Original file line number
Diff line number
Diff line change
@@ -13,7 +13,7 @@
13
13
"cell_type": "markdown",
14
14
"metadata": {},
15
15
"source": [
16
-
"## Bog of Words\n",
16
+
"## Bag of Words\n",
17
17
"\n",
18
18
"C'est le début de tout. La première étape consiste à découper un texte en token (caractères, mots, ...). Le plus souvent, c'est en mot. Chaque mot reçoit un identifiant. Une phrase est transformée en une liste d'entiers.\n",
19
19
"\n",
@@ -235,7 +235,7 @@
235
235
"\n",
236
236
"Au final, il s'agit de compresser des phrases dans un espace vectoriel numérique. Plus on a de texte, plus on peut apprendre des compressions efficaces. Le deep learning, la puissance de calcul vient à la rescousse. Une approche populaire est [word2vec](https://towardsdatascience.com/word2vec-with-pytorch-implementing-original-paper-2cd7040120b0/). Un autre package [textblob](https://textblob.readthedocs.io/en/dev/) propose d'enrichir les phrases en taggant les mots (nom, verbe, ...). Il y a aussi [spacy](https://spacy.io/), [NLTK](https://www.nltk.org/).\n",
237
237
"\n",
238
-
"Le plus efficace est sans doute d'utiliser un modèle de deep learning entraîné à faire une tâche proche du problème de prédiction à résoudre."
238
+
"Le plus efficace est sans doute d'utiliser un modèle de deep learning entraîné à faire une tâche proche du problème de prédiction à résoudre. L'exemple suivant s'appuie sur le modèle [google/bert_uncased_L-2_H-128_A-2)](https://huggingface.co/google/bert_uncased_L-2_H-128_A-2)."
0 commit comments