fix index

xadupre · xadupre · commit 07afd86d8e06 · 2025-03-05T23:38:45.000+01:00
diff --git a/_doc/i_index.rst b/_doc/i_index.rst
@@ -12,3 +12,6 @@ En diagonal
     api/index
     i_ex
     i_faq
+    genindex
+    modindex
+    search
diff --git a/_doc/practice/ml/pretraitement_image.ipynb b/_doc/practice/ml/pretraitement_image.ipynb
@@ -195,7 +195,12 @@
    "source": [
     "from PIL import Image\n",
     "import numpy as np\n",
-    "from transformers import AutoImageProcessor, MobileNetV2Model\n",
+    "from transformers import (\n",
+    "    AutoImageProcessor,\n",
+    "    MobileNetV2Model,\n",
+    "    AutoFeatureExtractor,\n",
+    "    AutoModel,\n",
+    ")\n",
     "\n",
     "# Charger un modèle léger (ResNet)\n",
     "MODEL_NAME = \"google/mobilenet_v2_1.0_224\"\n",
diff --git a/_doc/practice/ml/pretraitement_son.ipynb b/_doc/practice/ml/pretraitement_son.ipynb
@@ -134,7 +134,7 @@
     "\n",
     "Cette méthode s'apparente à une [transfer learning](https://en.wikipedia.org/wiki/Transfer_learning). Quand on dispose de peu de données, il est difficile d'apprendre un modèle performant sur des données complexes type image ou son. En revanche, on peut utiliser la sortie d'un modèle appris sur des grandes quantité de données et les utiliser comme feature. On parle d' *embedding*.\n",
     "\n",
-    "Le package [transformers](https://huggingface.co/docs/transformers/en/index) offre plein de modèle de traitement de son, reconnaissance de la parole et autres traitements, il faut choisir un modèle qui s'approche de la tâche à réaliser par la suite. L'exemple suivant considère un petit modèle [distil-wav2vec2](https://huggingface.co/OthmaneJ/distil-wav2vec2) et transcrit le son en mots. Ce n'est pas le plus performant car c'est un petit modèle. On peut utiliser comme features la sortie du préprocesseur, celle du modèle... Tout dépend de ce qui suit."
+    "Le package [transformers](https://huggingface.co/docs/transformers/en/index) offre plein de modèle de traitement de son, reconnaissance de la parole et autres traitements, il faut choisir un modèle qui s'approche de la tâche à réaliser par la suite. L'exemple suivant considère un petit modèle [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) et transcrit le son en mots. Ce n'est pas le plus performant car c'est un petit modèle. On peut utiliser comme features la sortie du préprocesseur, celle du modèle... Tout dépend de ce qui suit."
    ]
   },
   {
@@ -267,18 +267,6 @@
    "display_name": "Python 3 (ipykernel)",
    "language": "python",
    "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.12.8"
   }
  },
  "nbformat": 4,
diff --git a/_doc/practice/ml/pretraitement_texte.ipynb b/_doc/practice/ml/pretraitement_texte.ipynb
@@ -13,7 +13,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Bog of Words\n",
+    "## Bag of Words\n",
     "\n",
     "C'est le début de tout. La première étape consiste à découper un texte en token (caractères, mots, ...). Le plus souvent, c'est en mot. Chaque mot reçoit un identifiant. Une phrase est transformée en une liste d'entiers.\n",
     "\n",
@@ -235,7 +235,7 @@
     "\n",
     "Au final, il s'agit de compresser des phrases dans un espace vectoriel numérique. Plus on a de texte, plus on peut apprendre des compressions efficaces. Le deep learning, la puissance de calcul vient à la rescousse. Une approche populaire est [word2vec](https://towardsdatascience.com/word2vec-with-pytorch-implementing-original-paper-2cd7040120b0/). Un autre package [textblob](https://textblob.readthedocs.io/en/dev/) propose d'enrichir les phrases en taggant les mots (nom, verbe, ...). Il y a aussi [spacy](https://spacy.io/), [NLTK](https://www.nltk.org/).\n",
     "\n",
-    "Le plus efficace est sans doute d'utiliser un modèle de deep learning entraîné à faire une tâche proche du problème de prédiction à résoudre."
+    "Le plus efficace est sans doute d'utiliser un modèle de deep learning entraîné à faire une tâche proche du problème de prédiction à résoudre. L'exemple suivant s'appuie sur le modèle [google/bert_uncased_L-2_H-128_A-2)](https://huggingface.co/google/bert_uncased_L-2_H-128_A-2)."
    ]
   },
   {
diff --git a/_unittests/ut_xrun_doc/test_documentation_notebook.py b/_unittests/ut_xrun_doc/test_documentation_notebook.py
@@ -2,6 +2,7 @@
 import os
 import sys
 import importlib
+import shutil
 import subprocess
 import time
 import warnings
@@ -26,6 +27,8 @@ def import_source(module_file_path, module_name):
 
 
 class TestDocumentationNotebook(ExtTestCase):
+    _tmp = "temp_notebooks"
+
     def post_process(self, content):
         lines = []
         for line in content.split("\n"):
@@ -48,7 +51,7 @@ def run_test(self, nb_name: str, verbose=0) -> int:
         content = self.post_process(exporter.from_filename(nb_name)[0])
         bcontent = content.encode("utf-8")
 
-        tmp = "temp_notebooks"
+        tmp = self._tmp
         if not os.path.exists(tmp):
             os.mkdir(tmp)
         # with tempfile.NamedTemporaryFile(suffix=".py") as tmp:
@@ -92,7 +95,16 @@ def run_test(self, nb_name: str, verbose=0) -> int:
         return 1
 
     @classmethod
-    def add_test_methods_path(cls, fold):
+    def add_test_methods_path(cls, fold, copy_folder=None):
+        if copy_folder:
+            full_path = os.path.join(fold, copy_folder)
+            assert os.path.exists(full_path), f"Unable to find {full_path!r}"
+            dest = copy_folder
+            if not os.path.exists(dest):
+                os.makedirs(dest)
+                for name in os.listdir(full_path):
+                    shutil.copy(os.path.join(full_path, name), dest)
+
         found = os.listdir(fold)
         last = os.path.split(fold)[-1]
         for name in found:
@@ -160,7 +172,10 @@ def add_test_methods(cls):
             os.path.join(this, "..", "..", "_doc", "practice", "years", "2023"),
         ]
         for fold in folds:
-            cls.add_test_methods_path(os.path.normpath(fold))
+            cls.add_test_methods_path(
+                os.path.normpath(fold),
+                copy_folder="images" if fold.endswith("ml") else None,
+            )
 
 
 TestDocumentationNotebook.add_test_methods()