Spaces:

Zelyanoth
/

Lin

Sleeping

App Files Files Community

Zelyanoth commited on 18 days ago

Commit

6101ff2

1 Parent(s): 0608375

feat(content): update RSS feed processing to include user country and language preferences

Browse files

Files changed (1) hide show

backend/services/content_service.py +80 -31

backend/services/content_service.py CHANGED Viewed

@@ -43,7 +43,7 @@ class ContentService:
             try:
                 # Check if the Hugging Face Space exists and is accessible before creating the client
-                self.client = Client("Zelyanoth/Linkedin_poster_dev", hf_token=self.hugging_key)
                 # Log success using safe approach
                 try:
@@ -328,6 +328,10 @@ class ContentService:
                 user_rss_sources = rss_response.data if rss_response.data else []
                 # Analyze each RSS source for frequency of new articles/links
                 keyword_data = []
@@ -338,37 +342,82 @@ class ContentService:
                     rss_link = rss_source["source"]
                     # Check if the source is a keyword rather than an RSS URL
-                    # If it's a keyword, generate a Google News RSS URL
-                    if self._is_url(rss_link):
-                        # It's a URL, use it directly
-                        feed_url = rss_link
                     else:
-                        # It's a keyword, generate Google News RSS URL
-                        feed_url = self._generate_google_news_rss_from_string(rss_link)
-                    # Parse the RSS feed
-                    feed = feedparser.parse(feed_url)
-                    # Log some debug information
-                    current_app.logger.info(f"Processing RSS feed: {feed_url}")
-                    current_app.logger.info(f"Number of entries in feed: {len(feed.entries)}")
-                    # Extract articles from the feed
-                    for entry in feed.entries:
-                        # Use the same date handling as in the original ai_agent.py
-                        article_data = {
-                            'title': entry.title,
-                            'link': entry.link,
-                            'summary': entry.summary,
-                            'date': entry.get('published', entry.get('updated', None)),
-                            'content': entry.get('summary', '') + ' ' + entry.get('title', '')
-                        }
-                        # Log individual article data for debugging
-                        current_app.logger.info(f"Article title: {entry.title}")
-                        current_app.logger.info(f"Article date: {article_data['date']}")
-                        all_articles.append(article_data)
                 # Create a DataFrame from the articles
                 df_articles = pd.DataFrame(all_articles)

             try:
                 # Check if the Hugging Face Space exists and is accessible before creating the client
+                self.client = Client("Zelyanoth/Linkedin_poster_dev", token=self.hugging_key)
                 # Log success using safe approach
                 try:
                 user_rss_sources = rss_response.data if rss_response.data else []
+                # Get user preferences for country and language
+                user_prefs = self._get_user_preferences(user_id)
+                user_country = user_prefs["country"]
                 # Analyze each RSS source for frequency of new articles/links
                 keyword_data = []
                     rss_link = rss_source["source"]
                     # Check if the source is a keyword rather than an RSS URL
+                    # If it's a keyword, generate a Google News RSS URL with user's preferences
+                    if not self._is_url(rss_link):
+                        # It's a keyword, generate Google News RSS URLs for both English and French for user's country
+                        english_feed_url = self._generate_google_news_rss_from_string(rss_link, language="en", country=user_country)
+                        french_feed_url = self._generate_google_news_rss_from_string(rss_link, language="fr", country=user_country)
+                        # Process both English and French feeds
+                        english_feed = feedparser.parse(english_feed_url)
+                        french_feed = feedparser.parse(french_feed_url)
+                        # Extract articles from both feeds
+                        english_articles = []
+                        for entry in english_feed.entries:
+                            article_data = {
+                                'title': entry.title,
+                                'link': entry.link,
+                                'summary': entry.summary,
+                                'date': entry.get('published', entry.get('updated', None)),
+                                'content': entry.get('summary', '') + ' ' + entry.get('title', ''),
+                                'language': 'en'  # Add language indicator
+                            }
+                            english_articles.append(article_data)
+                        french_articles = []
+                        for entry in french_feed.entries:
+                            article_data = {
+                                'title': entry.title,
+                                'link': entry.link,
+                                'summary': entry.summary,
+                                'date': entry.get('published', entry.get('updated', None)),
+                                'content': entry.get('summary', '') + ' ' + entry.get('title', ''),
+                                'language': 'fr'  # Add language indicator
+                            }
+                            french_articles.append(article_data)
+                        # Convert to DataFrames
+                        english_df = pd.DataFrame(english_articles)
+                        french_df = pd.DataFrame(french_articles)
+                        # Merge dataframes to remove duplicates based on article URL
+                        if not english_df.empty and not french_df.empty:
+                            all_articles_df = self._merge_dataframes(english_df, french_df)
+                        elif not english_df.empty:
+                            all_articles_df = english_df
+                        elif not french_df.empty:
+                            all_articles_df = french_df
+                        else:
+                            all_articles_df = pd.DataFrame()
+                        # Extract the unique articles back to the list
+                        all_articles.extend(all_articles_df.to_dict('records'))
                     else:
+                        # If it's a URL, use it directly (for backward compatibility or external RSS)
+                        feed_url = rss_link
+                        feed = feedparser.parse(feed_url)
+                        # Log some debug information
+                        current_app.logger.info(f"Processing RSS feed: {feed_url}")
+                        current_app.logger.info(f"Number of entries in feed: {len(feed.entries)}")
+                        # Extract articles from the feed
+                        for entry in feed.entries:
+                            # Use the same date handling as in the original ai_agent.py
+                            article_data = {
+                                'title': entry.title,
+                                'link': entry.link,
+                                'summary': entry.summary,
+                                'date': entry.get('published', entry.get('updated', None)),
+                                'content': entry.get('summary', '') + ' ' + entry.get('title', '')
+                            }
+                            # Log individual article data for debugging
+                            current_app.logger.info(f"Article title: {entry.title}")
+                            current_app.logger.info(f"Article date: {article_data['date']}")
+                            all_articles.append(article_data)
                 # Create a DataFrame from the articles
                 df_articles = pd.DataFrame(all_articles)