Spaces:

MtotoWaJemo
/

nifty-news-analysis

Running

App Files Files Community

MtotoWaJemo commited on 14 days ago

Commit

b24af4e

verified ·

1 Parent(s): c4fbf73

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -61

app.py CHANGED Viewed

@@ -182,11 +182,10 @@ with st.sidebar:
     button = st.button("Analyze News", key="analyze_button")
 # Function to calculate time range
-@st.cache_data
 def get_date_range(period):
     end_date = datetime.now()
     if period == "1D":
-        start_date = end_date - timedelta(hours=36)  # Broaden to 36 hours for more results
     elif period == "5D":
         start_date = end_date - timedelta(days=5)
     elif period == "1M":
@@ -199,54 +198,53 @@ def get_date_range(period):
         start_date = end_date - timedelta(days=365)
     else:  # 5Y
         start_date = end_date - timedelta(days=365 * 5)
-    return start_date.strftime('%Y-%m-%dT%H:%M:%SZ'), end_date.strftime('%Y-%m-%dT%H:%M:%SZ')
 # Async news fetching with retry logic
 @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=5))
 async def fetch_news_async(session, company_name, from_date, to_date, api_key, page_size=20, period="1D"):
     try:
         newsapi = NewsApiClient(api_key=api_key)
-        # Relax filtering for 1D
-        min_relevance_weight = 0.5 if period == "1D" else 1.0
         articles = newsapi.get_everything(
             q=company_name,
             from_param=from_date,
-            to=to_date if period != "1D" else None,  # Fetch up to now for 1D
             language="en",
             sort_by="publishedAt",
             page_size=page_size
         )["articles"]
-        relevant_articles = []
-        for article in articles:
-            title = (article.get("title", "") or "").lower()
-            desc = (article.get("description", "") or "").lower()
-            relevance_weight = sum(keyword_weights.get(keyword, 0) for keyword in keyword_weights if keyword in title or keyword in desc)
-            if relevance_weight >= min_relevance_weight:
-                article["relevance_weight"] = relevance_weight
-                relevant_articles.append(article)
-        logger.info(f"Fetched {len(relevant_articles)} articles for {company_name} in {period}")
-        return company_name, sorted(relevant_articles, key=lambda x: x["relevance_weight"], reverse=True)[:5]
     except Exception as e:
         logger.error(f"Error fetching news for {company_name}: {str(e)}")
         return company_name, []
 # Batch summarize and classify articles
-@st.cache_data(ttl=1800)  # Cache for 30 minutes
 def summarize_and_classify_batch(news_articles):
     try:
         sentiment_counts = {"Positive": 0, "Negative": 0, "Neutral": 0}
         summaries = []
         key_themes = {}
         contents = [article.get("content", "") or article.get("description", "") or article.get("title", "") for article in news_articles]
-        contents = [c[:1024] for c in contents if c]  # Truncate for speed
         if not contents:
             return [], sentiment_counts, []
-        # Batch summarization
         summaries_raw = summarizer(contents, max_length=80, min_length=20, do_sample=False, batch_size=4)
         summaries_texts = [s["summary_text"] for s in summaries_raw] if isinstance(summaries_raw, list) else [summaries_raw["summary_text"]]
-        # Batch sentiment analysis
         sentiment_results = classifier(summaries_texts, batch_size=4)
         for idx, article in enumerate(news_articles):
@@ -258,10 +256,10 @@ def summarize_and_classify_batch(news_articles):
             sentiment_result = sentiment_results[idx]
             sentiment_label = sentiment_result["label"]
             sentiment_score = sentiment_result["score"]
-            if sentiment_label == "POSITIVE" and sentiment_score > 0.6:  # Lowered threshold
                 sentiment_counts["Positive"] += 1
                 sentiment_display = "Positive"
-            elif sentiment_label == "NEGATIVE" and sentiment_score > 0.6:  # Lowered threshold
                 sentiment_counts["Negative"] += 1
                 sentiment_display = "Negative"
             else:
@@ -283,7 +281,7 @@ def summarize_and_classify_batch(news_articles):
             })
         top_themes = sorted(key_themes.items(), key=lambda x: x[1], reverse=True)[:3]
         logger.info(f"Sentiment counts: {sentiment_counts}")
-        return summaries[:3], sentiment_counts, top_themes  # Include all sentiments
     except Exception as e:
         logger.error(f"Error in summarize_and_classify: {str(e)}")
         return [], {"Positive": 0, "Negative": 0, "Neutral": 0}, []
@@ -328,16 +326,13 @@ if button:
         st.stop()
     with st.spinner("Fetching and analyzing news..."):
-        # Get date range
         from_date, to_date = get_date_range(selected_period)
-        # Filter companies by sector
         companies_in_sector = {name: data for name, data in nifty_50_data.items() if data['sector'] == selected_sector}
         if not companies_in_sector:
             st.warning(f"No companies found for {selected_sector} sector.")
             st.stop()
-        # Async news fetching
         sentiment_data = []
         all_news = {}
         sector_sentiment_counts = {"Positive": 0, "Negative": 0, "Neutral": 0}
@@ -352,7 +347,6 @@ if button:
                 ]
                 return await asyncio.gather(*tasks, return_exceptions=True)
-        # Progress bar
         progress_bar = st.progress(0)
         progress_text = st.empty()
         results = asyncio.run(fetch_all_news())
@@ -383,12 +377,11 @@ if button:
                 for theme, count in top_themes:
                     sector_themes[theme] = sector_themes.get(theme, 0) + count
             else:
-                st.warning(f"No relevant news found for {company_name}.{' Try a longer time frame like 5D or 1M.' if selected_period == '1D' else ''}")
         progress_bar.empty()
         progress_text.empty()
-        # Display results
         if sentiment_data:
             colored_header(
                 f"Sentiment Analysis for {selected_sector} Sector ({selected_period})",
@@ -396,13 +389,11 @@ if button:
                 color_name="blue-70"
             )
-            # Sentiment table
             sentiment_df = pd.DataFrame(sentiment_data)[["Company", "Positive", "Negative", "Neutral", "Total", "Sentiment Score"]]
             sentiment_df = sentiment_df.sort_values("Sentiment Score", ascending=False)
             st.subheader("Company Sentiment Overview")
             st.table(sentiment_df)
-            # Sentiment visualization
             st.subheader("Sentiment Score Distribution")
             fig = px.bar(
                 sentiment_df,
@@ -416,9 +407,8 @@ if button:
             )
             st.plotly_chart(fig, use_container_width=True)
-            # Enhanced Decision Guidance
-            colored_header("📊 Decision Guidance", description="Investment Insights Based on News Sentiment", color_name="violet-70")
-            st.markdown("**Disclaimer**: These insights are derived from news sentiment and are not financial advice. Consult a certified financial advisor before making investment decisions.", unsafe_allow_html=True)
             sector_total = sum(sector_sentiment_counts.values())
             sector_positive_pct = (sector_sentiment_counts["Positive"] / sector_total * 100) if sector_total > 0 else 0
@@ -426,51 +416,34 @@ if button:
             sector_neutral_pct = (sector_sentiment_counts["Neutral"] / sector_total * 100) if sector_total > 0 else 0
             sector_sentiment = "Positive" if sector_positive_pct > 50 else "Negative" if sector_negative_pct > 50 else "Neutral"
-            # Sector-level insights
             st.markdown(f"**Sector Sentiment**: {sector_sentiment} ({sector_positive_pct:.1f}% Positive, {sector_negative_pct:.1f}% Negative, {sector_neutral_pct:.1f}% Neutral)")
             outlook = "Favorable 📈" if sector_positive_pct > 50 else "Cautious 📉" if sector_negative_pct > 50 else "Neutral ⚖️"
-            trend = "Improving" if sector_positive_pct > sector_neutral_pct else "Declining" if sector_negative_pct > sector_positive_pct else "Stable"
-            st.markdown(f"- **Investment Outlook**: {outlook} for selective investments in the {selected_sector} sector. Sentiment trend: **{trend}**.")
-            # Risk factors
             negative_themes = [theme for theme, count in sorted(sector_themes.items(), key=lambda x: x[1], reverse=True) if theme in ["loss", "downgrade", "bearish", "fine", "violation", "probe", "fraud", "scandal"]]
             if negative_themes:
-                st.markdown(f"- **Risk Factors**: Potential concerns include {', '.join(negative_themes[:3])}. Monitor these closely.")
-            # Top companies
-            st.markdown("**Top Companies to Watch**:")
-            top_companies = sentiment_df.head(3).to_dict("records")
-            for company in top_companies:
-                themes_str = ", ".join(sentiment_data[sentiment_data.index(company["Company"] == sentiment_data["Company"])]["Top Themes"][0]) if sentiment_data[sentiment_data.index(company["Company"] == sentiment_data["Company"])]["Top Themes"] else "none"
-                st.markdown(f"- **{company['Company']}**: Sentiment Score: {company['Sentiment Score']:.2f} ({company['Positive']} Positive, {company['Negative']} Negative, {company['Neutral']} Neutral). Driven by {themes_str}.")
-            # Actionable tips
-            st.markdown("**Actionable Tips**:")
-            st.markdown("- Focus on companies with **high article volume** (e.g., >5 articles) for more reliable sentiment signals.")
-            st.markdown("- Cross-check **Neutral** sentiments with company fundamentals, as they may indicate mixed or unclear news.")
-            st.markdown("- Monitor **negative themes** (e.g., regulation, loss) for potential long-term impacts.")
-            st.markdown("- Use longer time frames (e.g., 1M) for sectors with sparse news to capture broader trends.")
-            # Confidence context
-            st.markdown("**Confidence Levels**:")
-            st.markdown("- **High**: Based on robust news coverage (>70% of max articles).")
-            st.markdown("- **Medium**: Moderate coverage (30-70% of max articles).")
-            st.markdown("- **Low**: Limited coverage (<30% of max articles). Consider additional research.")
-            # Company insights
             st.markdown("**Company Insights**:")
             for company in sentiment_data:
                 confidence = "High" if company["Total"] / max_articles > 0.7 else "Medium" if company["Total"] / max_articles > 0.3 else "Low"
                 recommendation = "Consider buying 📈" if company["Sentiment Score"] > 0.3 else "Avoid 📉" if company["Sentiment Score"] < -0.3 else "Monitor ⚖️"
                 themes_str = ", ".join(company["Top Themes"]) if company["Top Themes"] else "none"
-                st.markdown(f"- **{company['Company']}**: Score: {company['Sentiment Score']:.2f} ({company['Dominant Sentiment']}, driven by {themes_str}), {company['Total']} articles (Confidence: {confidence}). **Recommendation**: {recommendation}.")
-            # Detailed news for each company
             for company_name in sentiment_df["Company"]:
                 if company_name in all_news and all_news[company_name]:
                     display_news_articles(all_news[company_name], company_name, selected_period)
         else:
-            st.warning(f"No relevant news found for {selected_sector} sector in the selected period. Try a longer time frame like 5D or 1M.")
 # Footer
 st.markdown('<div class="footer">Created by MtotoWaJemo | Powered by NewsAPI & Transformers</div>', unsafe_allow_html=True)

     button = st.button("Analyze News", key="analyze_button")
 # Function to calculate time range
 def get_date_range(period):
     end_date = datetime.now()
     if period == "1D":
+        start_date = end_date - timedelta(hours=36)  # Broaden to 36 hours
     elif period == "5D":
         start_date = end_date - timedelta(days=5)
     elif period == "1M":
         start_date = end_date - timedelta(days=365)
     else:  # 5Y
         start_date = end_date - timedelta(days=365 * 5)
+    return start_date.strftime('%Y-%m-%d'), end_date.strftime('%Y-%m-%d')
 # Async news fetching with retry logic
 @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=5))
 async def fetch_news_async(session, company_name, from_date, to_date, api_key, page_size=20, period="1D"):
     try:
         newsapi = NewsApiClient(api_key=api_key)
+        page_size = 50 if period == "1D" else page_size  # Increase for 1D
         articles = newsapi.get_everything(
             q=company_name,
             from_param=from_date,
+            to=to_date if period != "1D" else None,
             language="en",
             sort_by="publishedAt",
             page_size=page_size
         )["articles"]
+        if period == "1D":
+            relevant_articles = articles  # No filtering for 1D
+        else:
+            relevant_articles = []
+            for article in articles:
+                title = (article.get("title", "") or "").lower()
+                desc = (article.get("description", "") or "").lower()
+                if any(keyword in title or keyword in desc for keyword in keyword_weights.keys()):
+                    article["relevance_weight"] = sum(keyword_weights.get(keyword, 0) for keyword in keyword_weights if keyword in title or keyword in desc)
+                    relevant_articles.append(article)
+        logger.info(f"Fetched {len(articles)} articles, {len(relevant_articles)} relevant for {company_name} in {period}")
+        return company_name, relevant_articles[:5]
     except Exception as e:
         logger.error(f"Error fetching news for {company_name}: {str(e)}")
+        st.error(f"Failed to fetch news for {company_name}: {str(e)}. Check NEWSAPI_KEY or try again later.")
         return company_name, []
 # Batch summarize and classify articles
 def summarize_and_classify_batch(news_articles):
     try:
         sentiment_counts = {"Positive": 0, "Negative": 0, "Neutral": 0}
         summaries = []
         key_themes = {}
         contents = [article.get("content", "") or article.get("description", "") or article.get("title", "") for article in news_articles]
+        contents = [c[:1024] for c in contents if c]
         if not contents:
             return [], sentiment_counts, []
         summaries_raw = summarizer(contents, max_length=80, min_length=20, do_sample=False, batch_size=4)
         summaries_texts = [s["summary_text"] for s in summaries_raw] if isinstance(summaries_raw, list) else [summaries_raw["summary_text"]]
         sentiment_results = classifier(summaries_texts, batch_size=4)
         for idx, article in enumerate(news_articles):
             sentiment_result = sentiment_results[idx]
             sentiment_label = sentiment_result["label"]
             sentiment_score = sentiment_result["score"]
+            if sentiment_label == "POSITIVE" and sentiment_score > 0.6:
                 sentiment_counts["Positive"] += 1
                 sentiment_display = "Positive"
+            elif sentiment_label == "NEGATIVE" and sentiment_score > 0.6:
                 sentiment_counts["Negative"] += 1
                 sentiment_display = "Negative"
             else:
             })
         top_themes = sorted(key_themes.items(), key=lambda x: x[1], reverse=True)[:3]
         logger.info(f"Sentiment counts: {sentiment_counts}")
+        return summaries[:3], sentiment_counts, top_themes
     except Exception as e:
         logger.error(f"Error in summarize_and_classify: {str(e)}")
         return [], {"Positive": 0, "Negative": 0, "Neutral": 0}, []
         st.stop()
     with st.spinner("Fetching and analyzing news..."):
         from_date, to_date = get_date_range(selected_period)
         companies_in_sector = {name: data for name, data in nifty_50_data.items() if data['sector'] == selected_sector}
         if not companies_in_sector:
             st.warning(f"No companies found for {selected_sector} sector.")
             st.stop()
         sentiment_data = []
         all_news = {}
         sector_sentiment_counts = {"Positive": 0, "Negative": 0, "Neutral": 0}
                 ]
                 return await asyncio.gather(*tasks, return_exceptions=True)
         progress_bar = st.progress(0)
         progress_text = st.empty()
         results = asyncio.run(fetch_all_news())
                 for theme, count in top_themes:
                     sector_themes[theme] = sector_themes.get(theme, 0) + count
             else:
+                st.warning(f"No news found for {company_name}.{' Try a longer time frame like 5D.' if selected_period == '1D' else ''}")
         progress_bar.empty()
         progress_text.empty()
         if sentiment_data:
             colored_header(
                 f"Sentiment Analysis for {selected_sector} Sector ({selected_period})",
                 color_name="blue-70"
             )
             sentiment_df = pd.DataFrame(sentiment_data)[["Company", "Positive", "Negative", "Neutral", "Total", "Sentiment Score"]]
             sentiment_df = sentiment_df.sort_values("Sentiment Score", ascending=False)
             st.subheader("Company Sentiment Overview")
             st.table(sentiment_df)
             st.subheader("Sentiment Score Distribution")
             fig = px.bar(
                 sentiment_df,
             )
             st.plotly_chart(fig, use_container_width=True)
+            colored_header("📊 Decision Guidance", description="Investment Insights from News Sentiment", color_name="violet-70")
+            st.markdown("**Disclaimer**: These are news-based insights, not financial advice. Consult a financial advisor.", unsafe_allow_html=True)
             sector_total = sum(sector_sentiment_counts.values())
             sector_positive_pct = (sector_sentiment_counts["Positive"] / sector_total * 100) if sector_total > 0 else 0
             sector_neutral_pct = (sector_sentiment_counts["Neutral"] / sector_total * 100) if sector_total > 0 else 0
             sector_sentiment = "Positive" if sector_positive_pct > 50 else "Negative" if sector_negative_pct > 50 else "Neutral"
             st.markdown(f"**Sector Sentiment**: {sector_sentiment} ({sector_positive_pct:.1f}% Positive, {sector_negative_pct:.1f}% Negative, {sector_neutral_pct:.1f}% Neutral)")
             outlook = "Favorable 📈" if sector_positive_pct > 50 else "Cautious 📉" if sector_negative_pct > 50 else "Neutral ⚖️"
+            st.markdown(f"- **Investment Outlook**: {outlook} for {selected_sector} sector.")
             negative_themes = [theme for theme, count in sorted(sector_themes.items(), key=lambda x: x[1], reverse=True) if theme in ["loss", "downgrade", "bearish", "fine", "violation", "probe", "fraud", "scandal"]]
             if negative_themes:
+                st.markdown(f"- **Risks**: Watch for issues related to {', '.join(negative_themes[:2])}.")
+            st.markdown("**Top Picks**:")
+            for company in sentiment_df.head(2).to_dict("records"):
+                st.markdown(f"- **{company['Company']}**: Score: {company['Sentiment Score']:.2f} ({company['Positive']} Positive, {company['Neutral']} Neutral).")
+            st.markdown("**Tips**:")
+            st.markdown("- Prioritize companies with high article counts for stronger signals.")
+            st.markdown("- Check Neutral news for hidden opportunities or risks.")
             st.markdown("**Company Insights**:")
             for company in sentiment_data:
                 confidence = "High" if company["Total"] / max_articles > 0.7 else "Medium" if company["Total"] / max_articles > 0.3 else "Low"
                 recommendation = "Consider buying 📈" if company["Sentiment Score"] > 0.3 else "Avoid 📉" if company["Sentiment Score"] < -0.3 else "Monitor ⚖️"
                 themes_str = ", ".join(company["Top Themes"]) if company["Top Themes"] else "none"
+                st.markdown(f"- **{company['Company']}**: Score: {company['Sentiment Score']:.2f} ({themes_str}, {company['Total']} articles, Confidence: {confidence}). {recommendation}.")
             for company_name in sentiment_df["Company"]:
                 if company_name in all_news and all_news[company_name]:
                     display_news_articles(all_news[company_name], company_name, selected_period)
         else:
+            st.warning(f"No news found for {selected_sector} sector. Try a longer time frame like 5D or 1M, or check your NEWSAPI_KEY.")
 # Footer
 st.markdown('<div class="footer">Created by MtotoWaJemo | Powered by NewsAPI & Transformers</div>', unsafe_allow_html=True)