Clase 10 - Reto

lcmartinezdev · lcmartinezdev · commit ebdb87a50a25 · 2025-10-02T20:16:25.000-05:00
diff --git a/src/platzi_news/analysis/analyzer.py b/src/platzi_news/analysis/analyzer.py
@@ -2,8 +2,10 @@
 
 from __future__ import annotations
 
+import itertools
 import json
 import logging
+from collections import defaultdict
 
 from openai import OpenAI
 
@@ -79,7 +81,7 @@ def analyze(self, articles: list[Article], question: str) -> str:
             content = response.choices[0].message.content
             if content is None:
                 raise AnalysisError("OpenAI returned empty response")
-            answer = content.strip()
+            answer: str = content.strip()
             logger.info("Successfully received analysis from OpenAI")
             return answer
         except Exception as e:
@@ -130,3 +132,22 @@ def find_duplicate_titles(articles: list[Article]) -> list[tuple[Article, Articl
             if articles[i].title == articles[j].title:
                 duplicates.append((articles[i], articles[j]))
     return duplicates
+
+
+def find_duplicate_titles_improved(
+    articles: list[Article],
+) -> list[tuple[Article, Article]]:
+    """Find articles with duplicate titles using efficient dictionary-based approach."""
+
+    title_to_articles = defaultdict(list)
+    for article in articles:
+        title_to_articles[article.title].append(article)
+
+    duplicates = []
+    for articles_with_same_title in title_to_articles.values():
+        if len(articles_with_same_title) > 1:
+            # Generate all unique pairs for this title
+            for pair in itertools.combinations(articles_with_same_title, 2):
+                duplicates.append(pair)
+
+    return duplicates
diff --git a/src/timeit_platzi_news.py b/src/timeit_platzi_news.py
@@ -0,0 +1,53 @@
+import timeit
+
+from platzi_news.analysis.analyzer import (
+    find_duplicate_titles,
+    find_duplicate_titles_improved,
+)
+from platzi_news.core.models import Article
+
+
+def create_test_articles(n: int) -> list[Article]:
+    """Create a list of articles with some duplicate titles for testing."""
+    return [
+        Article(
+            title=f"Title {i % (n // 10) if n > 10 else i}",
+            description=f"Description for article {i}",
+            url=f"https://example.com/article/{i}",
+        )
+        for i in range(n)
+    ]
+
+
+def test_performance() -> None:
+    """Test and display performance comparison
+    between original and improved find_duplicate_titles."""
+    sizes = [100, 200, 2000, 20000]
+
+    print("Comparison: find_duplicate_titles vs find_duplicate_titles_improved")
+    print("Size\tOriginal (O(n^2))\tImproved (O(n))\tSpeedup\tDuplicates")
+    print("-" * 80)
+
+    for size in sizes:
+        articles = create_test_articles(size)
+
+        time_original = timeit.timeit(
+            lambda: find_duplicate_titles(articles),
+            number=1,
+        )
+        time_improved = timeit.timeit(
+            lambda: find_duplicate_titles_improved(articles),
+            number=1,
+        )
+
+        # Get duplicates count (should be same for both)
+        duplicates = find_duplicate_titles(articles)
+        speedup = time_original / time_improved if time_improved > 0 else float("inf")
+
+        print(
+            f"{size}\t{time_original:.6f}\t\t{time_improved:.6f}\t{speedup:.1f}x\t{len(duplicates)}"
+        )
+
+
+if __name__ == "__main__":
+    test_performance()