Spaces:

MANOJSEQ
/

newsglobe-backend

Running

App Files Files

xet

Community

MANOJSEQ commited on Aug 29

Commit

93f1fb4

verified ·

1 Parent(s): f75d93a

Upload main.py

Browse files

Files changed (1) hide show

main.py +216 -60

main.py CHANGED Viewed

@@ -30,6 +30,7 @@ from starlette.middleware.gzip import GZipMiddleware
 from transformers import pipeline as hf_pipeline
 os.environ.setdefault("OMP_NUM_THREADS", "1")
 from fastapi.responses import PlainTextResponse, JSONResponse
 # ----------------- Torch Runtime Settings -----------------
 import torch
@@ -309,13 +310,14 @@ def _extract_desc_from_html(html: str) -> Optional[str]:
 def _desc_cache_get(url: str) -> Optional[str]:
     if not url:
         return None
-    entry = DESC_CACHE.get(url)
-    if not entry:
-        return None
-    if _now_mono() - entry["t"] > DESC_CACHE_TTL:
-        DESC_CACHE.pop(url, None)
-        return None
-    return entry["text"]
 def _desc_cache_put(url: str, text: str):
     if url and text:
@@ -991,7 +993,9 @@ def fetch_gdelt_articles(
     language=None,
     timespan="3d",
     category=None,
-    extra_tokens: Optional[List[str]] = None
 ):
     q = _gdelt_safe_query(query, language)
     if extra_tokens:
@@ -1003,8 +1007,12 @@ def fetch_gdelt_articles(
         "format": "json",
         "sort": "DateDesc",
         "maxrecords": int(min(250, max(1, limit))),
-        "timespan": timespan,
     }
     headers = {
         "User-Agent": "Mozilla/5.0 (compatible; NewsGlobe/1.0; +mailto:[email protected])",
         "Accept": "application/json",
@@ -1056,10 +1064,18 @@ def fetch_gdelt_articles(
     log.info(f"GDELT returned {len(results)}")
     return results
-def fetch_gdelt_multi(limit=120, query=None, language=None, timespan="48h", category=None, speed: Speed = Speed.balanced):
     if language:
-        primary = fetch_gdelt_articles(limit=limit, query=query, language=language, timespan=timespan, category=category)
-        booster = fetch_gdelt_articles(limit=max(10, limit // 6), query=query, language="en", timespan=timespan, category=category)
         return primary + booster
     if speed == Speed.fast:
         langs = LANG_ROTATION[:3]
@@ -1073,20 +1089,18 @@ def fetch_gdelt_multi(limit=120, query=None, language=None, timespan="48h", cate
     per_lang = max(8, math.ceil(limit / len(langs)))
     out = []
     for lg in langs:
-        out.extend(fetch_gdelt_articles(limit=per_lang, query=query, language=lg, timespan=timespan, category=category))
     if speed != Speed.fast:
         per_cc = max(4, limit // 30) if speed == Speed.max else max(2, limit // 40)
         for cc in COUNTRY_SEEDS[: (8 if speed == Speed.balanced else 16)]:
-            out.extend(
-                fetch_gdelt_articles(
-                    limit=per_cc,
-                    query=query,
-                    language="en",
-                    timespan=timespan,
-                    category=category,
-                    extra_tokens=[f"sourcecountry:{cc}"]
-                )
-            )
     return out
@@ -1377,36 +1391,109 @@ CACHE_TTL_SECS = 900
 SIM_THRESHOLD = 0.6
 _events_cache: Dict[Tuple, Dict[str, Any]] = {}
-def cache_key_for(q, category, language, limit_each, translate=False, target_lang=None, speed=Speed.balanced):
-    return (q or "", category or "", language or "", int(limit_each or 50),
-            bool(translate), (target_lang or "").lower(), speed.value)
 _first_real_build = True
-def get_or_build_events_cache(q, category, language, translate, target_lang, limit_each, speed=Speed.balanced):
     global _first_real_build
-    key = cache_key_for(q, category, language, limit_each, translate, target_lang, speed)
     now = monotonic()
     if speed == Speed.fast:
         use_timespan, use_limit = "24h", min(limit_each, 20)
     elif speed == Speed.balanced:
         use_timespan, use_limit = "48h", min(limit_each, 100)
     else:
         use_timespan, use_limit = "3d", limit_each
     entry = _events_cache.get(key)
     if entry and now - entry["t"] < CACHE_TTL_SECS:
         log.info(f"CACHE HIT for {key}")
         return key, entry["enriched"], entry["clusters"]
     lock = _get_inflight_lock(key)
     with lock:
         entry = _events_cache.get(key)
         if entry and now - entry["t"] < CACHE_TTL_SECS:
             log.info(f"CACHE HIT (post-lock) for {key}")
             return key, entry["enriched"], entry["clusters"]
-        if _first_real_build:
             use_timespan = "24h" if use_timespan != "24h" else use_timespan
             use_limit = min(use_limit, 100)
-        log.info(f"CACHE MISS for {key} — fetching (timespan={use_timespan}, limit_each={use_limit})")
         raw = combine_raw_articles(
             category=category,
             query=q,
@@ -1414,6 +1501,8 @@ def get_or_build_events_cache(q, category, language, translate, target_lang, lim
             limit_each=use_limit,
             timespan=use_timespan,
             speed=speed,
         )
         prefetch_descriptions_async(raw, speed)
         enriched_all = [enrich_article(a, language=language, translate=False, target_lang=None) for a in raw]
@@ -1507,13 +1596,25 @@ def fetch_newsapi_headlines_multi(limit=50, language=None):
         time.sleep(0.2)
     return all_[:limit]
-def fetch_newsapi_articles(category=None, limit=20, query=None, language=None):
     if not _newsapi_enabled():
         return []
     if query:
         url = f"https://newsapi.org/v2/everything?pageSize={limit}&apiKey={NEWSAPI_KEY}&q={requests.utils.quote(query)}"
         if language:
             url += f"&language={language}"
         try:
             r = _session_get(url, timeout=12)
             if r.status_code != 200:
@@ -1548,19 +1649,22 @@ def fetch_newsapi_articles(category=None, limit=20, query=None, language=None):
 # ----------------- Provider Combiner / Dedup -----------------
 def combine_raw_articles(category=None, query=None, language=None, limit_each=30,
-                         timespan="3d", speed=Speed.balanced, log_summary: bool = True):
     if speed == Speed.fast:
         timespan = "24h"
         limit_each = min(limit_each, 20)
     elif speed == Speed.balanced:
         timespan = "48h"
         limit_each = min(limit_each, 100)
     a1 = []
     if USE_NEWSAPI:
         if not query:
             a1 = fetch_newsapi_headlines_multi(limit=limit_each, language=language)
         else:
-            a1 = fetch_newsapi_articles(category=category, limit=limit_each, query=query, language=language)
     a2 = []
     if USE_NEWSDATA_API:
         a2 = [
@@ -1569,10 +1673,10 @@ def combine_raw_articles(category=None, query=None, language=None, limit_each=30
             if a.get("link")
         ]
     a3 = fetch_gnews_articles(limit=limit_each, query=query, language=language) if USE_GNEWS_API else []
-    gdelt_limit = limit_each
     a4 = fetch_gdelt_multi(
         limit=limit_each, query=query, language=language,
-        timespan=timespan, category=category, speed=speed
     ) if USE_GDELT_API else []
     seen, merged = set(), []
@@ -1583,6 +1687,23 @@ def combine_raw_articles(category=None, query=None, language=None, limit_each=30
             if url not in seen:
                 seen.add(url)
                 merged.append(a)
     if log_summary:
         fetch_log.info("----- Article Fetch Summary -----")
         fetch_log.info(f"📊 NewsAPI returned: {len(a1)} articles")
@@ -1593,6 +1714,7 @@ def combine_raw_articles(category=None, query=None, language=None, limit_each=30
         fetch_log.info("---------------------------------")
     return merged
 # ----------------- API: /events -----------------
 @app.get("/events")
 def get_events(
@@ -1606,9 +1728,17 @@ def get_events(
     min_countries: int = Query(2, ge=1, le=50),
     min_articles: int = Query(2, ge=1, le=200),
     speed: Speed = Query(Speed.balanced),
 ):
     cache_key, enriched, clusters = get_or_build_events_cache(
-        q, category, language, False, None, limit_each, speed=speed
     )
     view = enriched
     if translate and target_lang:
@@ -1635,28 +1765,47 @@ def get_event_details(
     target_lang: Optional[str] = Query(None),
     limit_each: int = Query(150, ge=5, le=250),
     max_samples: int = Query(5, ge=0, le=1000),
 ):
     if cache_key:
         parts = cache_key.split("|")
-        if len(parts) != 7:
             raise HTTPException(status_code=400, detail="Bad cache_key")
-        speed_str = parts[6]
-        try:
-            speed_obj = Speed(speed_str)
-        except ValueError:
-            speed_obj = Speed.balanced
-        key_tuple = (parts[0], parts[1], parts[2], int(parts[3]),
-                     parts[4] == "True", parts[5].lower(), speed_str)
     else:
         speed_obj = Speed.balanced
-        key_tuple = cache_key_for(q, category, language, limit_each, translate, target_lang, speed=speed_obj)
     entry = _events_cache.get(key_tuple)
     if not entry:
         _, enriched, clusters = get_or_build_events_cache(
-            q, category, language, False, None, limit_each, speed=speed_obj
         )
     else:
         enriched, clusters = entry["enriched"], entry["clusters"]
     eview = enriched
     if translate and target_lang:
         eview = [dict(i) for i in enriched]
@@ -1688,25 +1837,32 @@ def get_news(
     speed: Speed = Query(Speed.balanced),
     page: int = Query(1, ge=1),
     page_size: int = Query(120, ge=5, le=300),
 ):
     enriched: List[Dict[str, Any]] = []
     if cache_key:
         parts = cache_key.split("|")
-        if len(parts) == 7:
-            key_tuple = (
-                parts[0],
-                parts[1],
-                parts[2],
-                int(parts[3]),
-                parts[4] == "True",
-                parts[5].lower(),
-                parts[6],
-            )
             entry = _events_cache.get(key_tuple)
             if entry:
                 enriched = entry["enriched"]
     if not enriched:
-        raw = combine_raw_articles(category=category, query=q, language=language, limit_each=limit_each, speed=speed)
         prefetch_descriptions_async(raw, speed)
         enriched_all = [enrich_article(a, language=language, translate=False, target_lang=None) for a in raw]
         if category:
@@ -1733,9 +1889,9 @@ def get_news(
         s = sentiment.strip().lower()
         enriched = [i for i in enriched if i.get("sentiment", "").lower() == s]
     total = len(enriched)
-    start = (page - 1) * page_size
-    end = start + page_size
-    items = [dict(i) for i in enriched[start:end]]
     if lite:
         drop = {"_ml_text"}
         for i in items:

 from transformers import pipeline as hf_pipeline
 os.environ.setdefault("OMP_NUM_THREADS", "1")
 from fastapi.responses import PlainTextResponse, JSONResponse
+from datetime import datetime, timezone
 # ----------------- Torch Runtime Settings -----------------
 import torch
 def _desc_cache_get(url: str) -> Optional[str]:
     if not url:
         return None
+    with DESC_CACHE_LOCK:
+        entry = DESC_CACHE.get(url)
+        if not entry:
+            return None
+        if _now_mono() - entry["t"] > DESC_CACHE_TTL:
+            DESC_CACHE.pop(url, None)
+            return None
+        return entry["text"]
 def _desc_cache_put(url: str, text: str):
     if url and text:
     language=None,
     timespan="3d",
     category=None,
+    extra_tokens: Optional[List[str]] = None,
+    start_utc: Optional[datetime] = None,
+    end_utc: Optional[datetime] = None,
 ):
     q = _gdelt_safe_query(query, language)
     if extra_tokens:
         "format": "json",
         "sort": "DateDesc",
         "maxrecords": int(min(250, max(1, limit))),
     }
+    if start_utc and end_utc:
+        params["startdatetime"] = _gdelt_fmt(start_utc)
+        params["enddatetime"] = _gdelt_fmt(end_utc)
+    else:
+        params["timespan"] = timespan
     headers = {
         "User-Agent": "Mozilla/5.0 (compatible; NewsGlobe/1.0; +mailto:[email protected])",
         "Accept": "application/json",
     log.info(f"GDELT returned {len(results)}")
     return results
+def fetch_gdelt_multi(
+    limit=120, query=None, language=None, timespan="48h",
+    category=None, speed: Speed = Speed.balanced,
+    start_utc: Optional[datetime] = None, end_utc: Optional[datetime] = None
+):
     if language:
+        primary = fetch_gdelt_articles(limit=limit, query=query, language=language,
+                                       timespan=timespan, category=category,
+                                       start_utc=start_utc, end_utc=end_utc)
+        booster = fetch_gdelt_articles(limit=max(10, limit // 6), query=query, language="en",
+                                       timespan=timespan, category=category,
+                                       start_utc=start_utc, end_utc=end_utc)
         return primary + booster
     if speed == Speed.fast:
         langs = LANG_ROTATION[:3]
     per_lang = max(8, math.ceil(limit / len(langs)))
     out = []
     for lg in langs:
+        out.extend(fetch_gdelt_articles(limit=per_lang, query=query, language=lg,
+                                        timespan=timespan, category=category,
+                                        start_utc=start_utc, end_utc=end_utc))
     if speed != Speed.fast:
         per_cc = max(4, limit // 30) if speed == Speed.max else max(2, limit // 40)
         for cc in COUNTRY_SEEDS[: (8 if speed == Speed.balanced else 16)]:
+            out.extend(fetch_gdelt_articles(
+                limit=per_cc, query=query, language="en",
+                timespan=timespan, category=category,
+                extra_tokens=[f"sourcecountry:{cc}"],
+                start_utc=start_utc, end_utc=end_utc
+            ))
     return out
 SIM_THRESHOLD = 0.6
 _events_cache: Dict[Tuple, Dict[str, Any]] = {}
+# -------- Date parsing helpers (Option B) --------
+ISO_BASIC_RE = re.compile(r'^(\d{4})(\d{2})(\d{2})(?:[T ]?(\d{2})(\d{2})(\d{2}))?(Z|[+-]\d{2}:?\d{2})?$')
+def _parse_user_dt(s: Optional[str], which: str) -> Optional[datetime]:
+    """Parse query 'start'/'end' into UTC-aware datetimes."""
+    if not s:
+        return None
+    s = s.strip()
+    try:
+        # Normalize Z
+        if s.endswith("Z"):
+            s = s[:-1] + "+00:00"
+        # Date-only
+        if re.match(r'^\d{4}-\d{2}-\d{2}$', s):
+            s = s + ("T00:00:00+00:00" if which == "start" else "T23:59:59+00:00")
+        dt = datetime.fromisoformat(s)
+        if dt.tzinfo is None:
+            dt = dt.replace(tzinfo=timezone.utc)
+        return dt.astimezone(timezone.utc)
+    except Exception:
+        m = ISO_BASIC_RE.match(s)
+        if m:
+            yyyy, MM, dd, hh, mm, ss, tz = m.groups()
+            hh = hh or ("00" if which == "start" else "23")
+            mm = mm or ("00" if which == "start" else "59")
+            ss = ss or ("00" if which == "start" else "59")
+            return datetime(int(yyyy), int(MM), int(dd), int(hh), int(mm), int(ss), tzinfo=timezone.utc)
+    return None
+def _gdelt_fmt(dt: datetime) -> str:
+    return dt.astimezone(timezone.utc).strftime("%Y%m%d%H%M%S")
+def _parse_any_pubdate(s: Optional[str]) -> Optional[datetime]:
+    """Best-effort parse of provider publishedAt strings to UTC."""
+    if not s:
+        return None
+    try:
+        t = s.strip()
+        if t.endswith("Z"):
+            t = t[:-1] + "+00:00"
+        return datetime.fromisoformat(t).astimezone(timezone.utc)
+    except Exception:
+        m = ISO_BASIC_RE.match(s)
+        if m:
+            yyyy, MM, dd, hh, mm, ss, tz = m.groups()
+            hh = hh or "00"; mm = mm or "00"; ss = ss or "00"
+            return datetime(int(yyyy), int(MM), int(dd), int(hh), int(mm), int(ss), tzinfo=timezone.utc)
+    return None
+def cache_key_for(
+    q, category, language, limit_each,
+    translate=False, target_lang=None,
+    start_utc: Optional[datetime] = None,
+    end_utc: Optional[datetime] = None,
+    speed: Speed = Speed.balanced
+):
+    return (
+        q or "", category or "", language or "", int(limit_each or 50),
+        bool(translate), (target_lang or "").lower(),
+        (start_utc and _gdelt_fmt(start_utc)) or "",
+        (end_utc and _gdelt_fmt(end_utc)) or "",
+        speed.value,
+    )
 _first_real_build = True
+def get_or_build_events_cache(
+    q, category, language, translate, target_lang, limit_each,
+    start_utc: Optional[datetime] = None,
+    end_utc: Optional[datetime] = None,
+    speed: Speed = Speed.balanced
+):
     global _first_real_build
+    key = cache_key_for(q, category, language, limit_each, translate, target_lang, start_utc, end_utc, speed)
     now = monotonic()
     if speed == Speed.fast:
         use_timespan, use_limit = "24h", min(limit_each, 20)
     elif speed == Speed.balanced:
         use_timespan, use_limit = "48h", min(limit_each, 100)
     else:
         use_timespan, use_limit = "3d", limit_each
     entry = _events_cache.get(key)
     if entry and now - entry["t"] < CACHE_TTL_SECS:
         log.info(f"CACHE HIT for {key}")
         return key, entry["enriched"], entry["clusters"]
     lock = _get_inflight_lock(key)
     with lock:
         entry = _events_cache.get(key)
         if entry and now - entry["t"] < CACHE_TTL_SECS:
             log.info(f"CACHE HIT (post-lock) for {key}")
             return key, entry["enriched"], entry["clusters"]
+        if _first_real_build and not (start_utc and end_utc):
             use_timespan = "24h" if use_timespan != "24h" else use_timespan
             use_limit = min(use_limit, 100)
+        log.info(f"CACHE MISS for {key} — fetching (timespan={use_timespan}, limit_each={use_limit}, start={start_utc}, end={end_utc})")
         raw = combine_raw_articles(
             category=category,
             query=q,
             limit_each=use_limit,
             timespan=use_timespan,
             speed=speed,
+            start_utc=start_utc,
+            end_utc=end_utc,
         )
         prefetch_descriptions_async(raw, speed)
         enriched_all = [enrich_article(a, language=language, translate=False, target_lang=None) for a in raw]
         time.sleep(0.2)
     return all_[:limit]
+def fetch_newsapi_articles(
+    category=None,
+    limit=20,
+    query=None,
+    language=None,
+    start_utc: Optional[datetime] = None,
+    end_utc: Optional[datetime] = None,
+):
     if not _newsapi_enabled():
         return []
     if query:
         url = f"https://newsapi.org/v2/everything?pageSize={limit}&apiKey={NEWSAPI_KEY}&q={requests.utils.quote(query)}"
         if language:
             url += f"&language={language}"
+        # NEW: date range for /everything
+        if start_utc:
+            url += f"&from={start_utc.date().isoformat()}"
+        if end_utc:
+            url += f"&to={end_utc.date().isoformat()}"
         try:
             r = _session_get(url, timeout=12)
             if r.status_code != 200:
 # ----------------- Provider Combiner / Dedup -----------------
 def combine_raw_articles(category=None, query=None, language=None, limit_each=30,
+                         timespan="3d", speed=Speed.balanced, log_summary: bool = True,
+                         start_utc: Optional[datetime] = None, end_utc: Optional[datetime] = None):
     if speed == Speed.fast:
         timespan = "24h"
         limit_each = min(limit_each, 20)
     elif speed == Speed.balanced:
         timespan = "48h"
         limit_each = min(limit_each, 100)
     a1 = []
     if USE_NEWSAPI:
         if not query:
             a1 = fetch_newsapi_headlines_multi(limit=limit_each, language=language)
         else:
+            a1 = fetch_newsapi_articles(category=category, limit=limit_each, query=query,
+                                        language=language, start_utc=start_utc, end_utc=end_utc)
     a2 = []
     if USE_NEWSDATA_API:
         a2 = [
             if a.get("link")
         ]
     a3 = fetch_gnews_articles(limit=limit_each, query=query, language=language) if USE_GNEWS_API else []
     a4 = fetch_gdelt_multi(
         limit=limit_each, query=query, language=language,
+        timespan=timespan, category=category, speed=speed,
+        start_utc=start_utc, end_utc=end_utc
     ) if USE_GDELT_API else []
     seen, merged = set(), []
             if url not in seen:
                 seen.add(url)
                 merged.append(a)
+    #Apply date filter locally (for providers that can’t filter server-side)
+    if start_utc or end_utc:
+        s_ts = start_utc.timestamp() if start_utc else None
+        e_ts = end_utc.timestamp() if end_utc else None
+        def _in_range(row):
+            dt = _parse_any_pubdate(row.get("publishedAt") or "")
+            if not dt:
+                return False
+            t = dt.timestamp()
+            if s_ts and t < s_ts: return False
+            if e_ts and t > e_ts: return False
+            return True
+        merged = [a for a in merged if _in_range(a)]
     if log_summary:
         fetch_log.info("----- Article Fetch Summary -----")
         fetch_log.info(f"📊 NewsAPI returned: {len(a1)} articles")
         fetch_log.info("---------------------------------")
     return merged
 # ----------------- API: /events -----------------
 @app.get("/events")
 def get_events(
     min_countries: int = Query(2, ge=1, le=50),
     min_articles: int = Query(2, ge=1, le=200),
     speed: Speed = Query(Speed.balanced),
+    start: Optional[str] = Query(None),
+    end: Optional[str] = Query(None),
 ):
+    start_dt = _parse_user_dt(start, "start")
+    end_dt = _parse_user_dt(end, "end")
+    if start_dt and end_dt and start_dt > end_dt:
+        start_dt, end_dt = end_dt, start_dt  # swap
     cache_key, enriched, clusters = get_or_build_events_cache(
+        q, category, language, False, None, limit_each,
+        start_utc=start_dt, end_utc=end_dt, speed=speed
     )
     view = enriched
     if translate and target_lang:
     target_lang: Optional[str] = Query(None),
     limit_each: int = Query(150, ge=5, le=250),
     max_samples: int = Query(5, ge=0, le=1000),
+    start: Optional[str] = Query(None),
+    end: Optional[str] = Query(None),
 ):
+    start_dt = _parse_user_dt(start, "start")
+    end_dt = _parse_user_dt(end, "end")
     if cache_key:
         parts = cache_key.split("|")
+        if len(parts) == 9:
+            speed_str = parts[8]
+            try:
+                speed_obj = Speed(speed_str)
+            except ValueError:
+                speed_obj = Speed.balanced
+            key_tuple = (parts[0], parts[1], parts[2], int(parts[3]),
+                         parts[4] == "True", parts[5].lower(),
+                         parts[6], parts[7], speed_str)
+        elif len(parts) == 7:  # backwards compat
+            speed_str = parts[6]
+            try:
+                speed_obj = Speed(speed_str)
+            except ValueError:
+                speed_obj = Speed.balanced
+            key_tuple = (parts[0], parts[1], parts[2], int(parts[3]),
+                         parts[4] == "True", parts[5].lower(), "", "", speed_str)
+        else:
             raise HTTPException(status_code=400, detail="Bad cache_key")
     else:
         speed_obj = Speed.balanced
+        key_tuple = cache_key_for(q, category, language, limit_each, translate, target_lang,
+                                  start_utc=start_dt, end_utc=end_dt, speed=speed_obj)
     entry = _events_cache.get(key_tuple)
     if not entry:
         _, enriched, clusters = get_or_build_events_cache(
+            q, category, language, False, None, limit_each,
+            start_utc=start_dt, end_utc=end_dt, speed=speed_obj
         )
     else:
         enriched, clusters = entry["enriched"], entry["clusters"]
     eview = enriched
     if translate and target_lang:
         eview = [dict(i) for i in enriched]
     speed: Speed = Query(Speed.balanced),
     page: int = Query(1, ge=1),
     page_size: int = Query(120, ge=5, le=300),
+    start: Optional[str] = Query(None),
+    end: Optional[str] = Query(None),
 ):
+    start_dt = _parse_user_dt(start, "start")
+    end_dt = _parse_user_dt(end, "end")
     enriched: List[Dict[str, Any]] = []
     if cache_key:
         parts = cache_key.split("|")
+        if len(parts) == 9:
+            key_tuple = (parts[0], parts[1], parts[2], int(parts[3]),
+                         parts[4] == "True", parts[5].lower(), parts[6], parts[7], parts[8])
             entry = _events_cache.get(key_tuple)
             if entry:
                 enriched = entry["enriched"]
+        elif len(parts) == 7:  # backwards compat
+            key_tuple = (parts[0], parts[1], parts[2], int(parts[3]),
+                         parts[4] == "True", parts[5].lower(), "", "", parts[6])
+            entry = _events_cache.get(key_tuple)
+            if entry:
+                enriched = entry["enriched"]
     if not enriched:
+        raw = combine_raw_articles(category=category, query=q, language=language,
+                                   limit_each=limit_each, speed=speed,
+                                   start_utc=start_dt, end_utc=end_dt)
         prefetch_descriptions_async(raw, speed)
         enriched_all = [enrich_article(a, language=language, translate=False, target_lang=None) for a in raw]
         if category:
         s = sentiment.strip().lower()
         enriched = [i for i in enriched if i.get("sentiment", "").lower() == s]
     total = len(enriched)
+    offset = (page - 1) * page_size
+    end_idx = offset + page_size
+    items = [dict(i) for i in enriched[offset:end_idx]]
     if lite:
         drop = {"_ml_text"}
         for i in items: