use CV as authoritative source for alumni ordering

jeremymanning · claude · jeremymanning · commit e6980ba822cd · 2026-01-08T22:22:28.000-05:00
build_people.py now parses JRM_CV.tex to get the exact order of undergraduate advisees. Alumni are sorted to match CV order (reverse chronological by join date) automatically - no manual spreadsheet ordering needed. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
diff --git a/people.html b/people.html
@@ -257,32 +257,31 @@ <h3>Undergraduate Researchers</h3>
                         Annabelle Morrow (2025-2026)<br>
                         Owen Phillips (2025-2026)<br>
                         Rodrigo Vega Ayllon (2025)<br>
-                        Chelsea Joe (2024-2026)<br>
-                        Harrison Stropkay (2024-2025)<br>
                         Miel Wewerka (2024)<br>
                         Manraaj Singh (2024)<br>
                         Can Kam (2024)<br>
+                        Chelsea Joe (2024-2026)<br>
                         Rohan Goyal (2024)<br>
+                        Harrison Stropkay (2024-2025)<br>
                         Abigayle McCusker (2024)<br>
                         Torsha Chakraverty (2024)<br>
                         Chloe Terestchenko (2024)<br>
                         Ansh Motiani (2024)<br>
                         Kaitlyn Peng (2024)<br>
                         Everett Tai (2024)<br>
                         Andrew Cao (2024)<br>
-                        Jake McDermid (2023-2025)<br>
                         Michael Chen (2023-2024)<br>
+                        Jake McDermid (2023-2025)<br>
                         Grady Redding (2023-2024)<br>
                         DJ Matusz (2023-2024)<br>
                         Aaryan Agarwal (2023-2024)<br>
                         Maura Hough (2023-2024)<br>
                         Emma Reeder (2023-2024)<br>
-                        Megan Liu (2023-2024)<br>
-                        Mira Chiruvolu (2023-2024)<br>
                         Safwan Rashid (2023)<br>
                         Francisca Fadairo (2023)<br>
                         Ameer Talha Yasser (2023)<br>
                         Yue Zhuo (2023)<br>
+                        Megan Liu (2023-2024)<br>
                         Charles Baker (2023)<br>
                         Andrew Shi (2023)<br>
                         Ash Chinta (2023)<br>
@@ -294,9 +293,10 @@ <h3>Undergraduate Researchers</h3>
                         Natalie Schreder (2023)<br>
                         Raselas Dessalegn (2023)<br>
                         Grace Wang (2023)<br>
+                        Mira Chiruvolu (2023-2024)<br>
+                        Anna Mikhailova (2022)<br>
                         Ansh Patel (2022-2024)<br>
                         Ziyan Zhu (2022-2023)<br>
-                        Anna Mikhailova (2022)<br>
                         Benjamin Lehrburger (2022)<br>
                         Thomas Corrado (2022)<br>
                         Samuel Crombie (2022)<br>
@@ -308,51 +308,51 @@ <h3>Undergraduate Researchers</h3>
                         Zachary Somma (2022)<br>
                         Dawson Haddox (2022)<br>
                         Swestha Jain (2022)<br>
+                        Aidan Adams (2021)<br>
+                        Damini Kohli (2021)<br>
                         Kunal Jha (2021-2024)<br>
                         Daniel Carstensen (2021-2024)<br>
                         Brian Chiang (2021-2022)<br>
-                        Aidan Adams (2021)<br>
-                        Damini Kohli (2021)<br>
                         Daniel Ha (2021)<br>
-                        Tyler Chen (2020-2022)<br>
-                        Chris Jun (2020-2022)<br>
-                        Ethan Adner (2020-2022)<br>
                         Darren Gu (2020-2021)<br>
+                        Tyler Chen (2020-2022)<br>
                         Tehut Biru (2020-2021)<br>
                         Chris Suh (2020-2021)<br>
-                        Chris Long (2020-2021)<br>
-                        Esme Chen (2020-2021)<br>
                         Helen Liu (2020)<br>
                         Kelly Rutherford (2020)<br>
+                        Chris Jun (2020-2022)<br>
+                        Ethan Adner (2020-2022)<br>
+                        Chris Long (2020-2021)<br>
+                        Esme Chen (2020-2021)<br>
                         Luca Lit (2020)<br>
                         Vivian Tran (2020)<br>
                         Greg Han (2020)<br>
                         Austin Zhang (2020)<br>
                         Chelsea Uddenberg (2020)<br>
                         Shane Hewitt (2020)<br>
                         Chetan Palvuluri (2020)<br>
-                        Tudor Muntianu (2019-2021)<br>
                         Aaron Lee (2019-2020)<br>
                         Anne George (2019-2020)<br>
                         Sarah Park (2019-2020)<br>
                         Shane Park (2019-2020)<br>
                         William Chen (2019-2020)<br>
-                        Alejandro Martinez (2018-2020)<br>
+                        Tudor Muntianu (2019-2021)<br>
                         William Baxley (2018-2019)<br>
                         Ann Carpenter (2018)<br>
                         Seung Ju Lee (2018)<br>
                         Mustafa Nasir-Moin (2018)<br>
                         Iain Sheerin (2018)<br>
                         Darya Romanova (2018)<br>
+                        Alejandro Martinez (2018-2020)<br>
                         Rachael Chacko (2018)<br>
                         Kirsten Soh (2018)<br>
                         Paxton Fitzpatrick (2017-2019)<br>
                         Stephen Satterthwaite (2017-2018)<br>
                         Bryan Bollinger (2017-2018)<br>
                         Christina Lu (2017)<br>
                         Armando Oritz (2017)<br>
-                        Madeline Lee (2016-2020)<br>
                         Campbell Field (2016-2018)<br>
+                        Madeline Lee (2016-2020)<br>
                         Wei Liang Samuel Ching (2016-2017)<br>
                         Marisol Tracy (2016-2017)<br>
                         Allison Frantz (2016-2017)<br>
diff --git a/scripts/build_people.py b/scripts/build_people.py
@@ -7,13 +7,53 @@
 
 import re
 from pathlib import Path
-from typing import List, Dict, Any
+from typing import List, Dict, Any, Optional
 import openpyxl
 
 from utils import inject_content
 from citation_utils import resolve_link
 
 
+def parse_cv_undergrad_order(cv_path: Path) -> List[str]:
+    """Parse the CV to get the order of undergraduate advisees.
+
+    The CV lists undergrads in reverse chronological order by join date
+    (most recent joiner first). This order is authoritative.
+
+    Args:
+        cv_path: Path to JRM_CV.tex
+
+    Returns:
+        List of names in CV order (first = highest priority)
+    """
+    if not cv_path.exists():
+        return []
+
+    content = cv_path.read_text(encoding="utf-8")
+
+    # Find the Undergraduate Advisees section
+    match = re.search(
+        r"\\textit\{Undergraduate Advisees\}.*?\\begin\{etaremune\}(.*?)\\end\{etaremune\}",
+        content,
+        re.DOTALL
+    )
+    if not match:
+        return []
+
+    section = match.group(1)
+
+    # Extract names from \item entries
+    # Format: \item Name[*]? (years)
+    names = []
+    for item_match in re.finditer(r"\\item\s+(.+?)\s*\(", section):
+        name = item_match.group(1).strip()
+        # Remove asterisk (senior thesis marker)
+        name = name.rstrip("*").strip()
+        names.append(name)
+
+    return names
+
+
 def parse_links_field(links_str: str) -> str:
     """Parse links field into HTML.
 
@@ -326,51 +366,35 @@ def generate_undergrad_entry(alum: Dict[str, Any]) -> str:
     return f"{name}{paren_display}"
 
 
-def get_start_year(years_str: str) -> int:
-    """Extract start year from years string for sorting.
-
-    Args:
-        years_str: Years string like '2024-2026', '2025', or '2023-2025'
-
-    Returns:
-        Start year as integer (defaults to 0 if unparseable)
-    """
-    if not years_str:
-        return 0
-    years_str = str(years_str).strip()
-    # Handle "2024-2026" format - extract first year
-    if "-" in years_str:
-        try:
-            return int(years_str.split("-")[0])
-        except ValueError:
-            return 0
-    # Handle single year "2025"
-    try:
-        return int(years_str)
-    except ValueError:
-        return 0
-
-
-def generate_undergrad_list_content(alumni: List[Dict[str, Any]]) -> str:
+def generate_undergrad_list_content(
+    alumni: List[Dict[str, Any]], cv_order: Optional[List[str]] = None
+) -> str:
     """Generate HTML content for undergraduate alumni list.
 
-    Alumni are sorted by start year (descending), matching CV order.
+    Alumni are sorted to match CV order (reverse chronological by join date).
 
     Args:
         alumni: List of alumni dictionaries
+        cv_order: Optional list of names in CV order (from parse_cv_undergrad_order)
 
     Returns:
         HTML string with alumni entries separated by <br>
     """
     if not alumni:
         return ""
 
-    # Sort by start year descending (most recent first)
-    # Use stable sort to preserve spreadsheet order within same start year (matches CV)
-    sorted_alumni = sorted(
-        alumni,
-        key=lambda a: -get_start_year(a.get("years", ""))
-    )
+    # Create position map from CV order (lower = appears first)
+    cv_position = {}
+    if cv_order:
+        for i, name in enumerate(cv_order):
+            cv_position[name] = i
+
+    def sort_key(a):
+        name = a.get("name", "")
+        # Use CV position if available, otherwise put at end
+        return cv_position.get(name, 99999)
+
+    sorted_alumni = sorted(alumni, key=sort_key)
 
     entries = [generate_undergrad_entry(a) for a in sorted_alumni]
     return "<br>\n                        ".join(entries)
@@ -419,17 +443,23 @@ def generate_collaborators_content(collaborators: List[Dict[str, Any]]) -> str:
     return "\n                ".join(entries)
 
 
-def build_people(data_path: Path, template_path: Path, output_path: Path) -> None:
+def build_people(data_path: Path, template_path: Path, output_path: Path, cv_path: Optional[Path] = None) -> None:
     """Build people.html from data and template.
 
     Args:
         data_path: Path to people.xlsx
         template_path: Path to template HTML file
         output_path: Path for generated HTML file
+        cv_path: Optional path to JRM_CV.tex for ordering undergrad alumni
     """
     # Load data
     data = load_people(data_path)
 
+    # Get CV order for undergrad alumni
+    cv_order = []
+    if cv_path:
+        cv_order = parse_cv_undergrad_order(cv_path)
+
     # Generate content for each section
     director_content = ""
     if data.get("director"):
@@ -448,7 +478,7 @@ def build_people(data_path: Path, template_path: Path, output_path: Path) -> Non
             data.get("alumni_managers", [])
         ),
         "ALUMNI_UNDERGRADS_CONTENT": generate_undergrad_list_content(
-            data.get("alumni_undergrads", [])
+            data.get("alumni_undergrads", []), cv_order
         ),
         "COLLABORATORS_CONTENT": generate_collaborators_content(
             data.get("collaborators", [])
@@ -469,8 +499,9 @@ def main():
     data_path = project_root / "data" / "people.xlsx"
     template_path = project_root / "templates" / "people.html"
     output_path = project_root / "people.html"
+    cv_path = project_root / "documents" / "JRM_CV.tex"
 
-    build_people(data_path, template_path, output_path)
+    build_people(data_path, template_path, output_path, cv_path)
 
 
 if __name__ == "__main__":