medical_llm_leaderboard

Sleeping

App Files Files Community

fenglinliu commited on Nov 11, 2024

Commit

2437deb

verified ·

1 Parent(s): fe7f326

Update meta_data.py

Browse files

Files changed (1) hide show

meta_data.py +1 -111

meta_data.py CHANGED Viewed

@@ -60,114 +60,4 @@ LEADERBOARD_MD['MAIN'] = f"""
 - Metrics:
   - Accuracy, ROUGE-L, and F1.
-"""
-LEADERBOARD_MD['Shopping Concept Understanding'] = """
-## Shopping Concept Understanding Evaluation Results
-Online shopping concepts such as brands and product models are domain-specific and not often seen in pre-training. Moreover, they often appear in short texts (e.g. queries, attribute-value pairs) and thus no sufficient contexts are given to help understand them. Hence, failing to understand these concepts compromises the performance of LLMs on downstream tasks.
-The included sub-skills and tasks include:
-- **Concept Normalization**:
-  - Product Category Synonym
-  - Attribute Value Synonym
-- **Elaboration**:
-  - Attribute Explanation
-  - Product Category Explanation
-- **Relational Inference**:
-  - Applicable Attribute to Product Category
-  - Applicable Product Category to Attribute
-  - Inapplicable Attributes
-  - Valid Attribute Value Given Attribute and Product Category
-  - Valid Attribute Given Attribute Value and Product Category
-  - Product Category Classification
-  - Product Category Generation
-- **Sentiment Analysis**:
-  - Aspect-based Sentiment Classification
-  - Aspect-based Review Retrieval
-  - Aspect-based Review Selection
-  - Aspect-based Reviews Overall Sentiment Classification
-- **Information Extraction**:
-  - Attribute Value Extraction
-  - Query Named Entity Recognition
-  - Aspect-based Review Keyphrase Selection
-  - Aspect-based Review Keyphrase Extraction
-- **Summarization**:
-  - Attribute Naming from Decription
-  - Product Category Naming from Description
-  - Review Aspect Retrieval
-  - Single Conversation Topic Selection
-  - Multi-Conversation Topic Retrieval
-  - Product Keyphrase Selection
-  - Product Keyphrase Retrieval
-  - Product Title Generation
-"""
-LEADERBOARD_MD['Shopping Knowledge Reasoning'] = """
-## Shopping Knowledge Reasoning Evaluation Results
-This skill focuses on understanding and applying various implicit knowledge to perform reasoning over products and their attributes. For example, calculations such as the total volume of a product pack require numeric reasoning, and finding compatible products requires multi-hop reasoning among various products over a product knowledge graph.
-The included sub-skills and tasks include:
-- **Numeric Reasoning**:
-  - Unit Conversation
-  - Product Numeric Reasoning
-- **Commonsense Reasoning**
-- **Implicit Multi-Hop Reasoning**:
-  - Product Compatibility
-  - Complementary Product Categories
-  - Implicit Attribute Reasoning
-  - Related Brands Selection
-  - Related Brands Retrieval
-"""
-LEADERBOARD_MD['User Behavior Alignment'] = """
-## User Behavior Alignment Evaluation Results
-Accurately modeling user behaviors is a crucial skill in online shopping. A large variety of user behaviors exist in online shopping, including queries, clicks, add-to-carts, purchases, etc. Moreover, these behaviors are generally implicit and not expressed in text.
-Consequently, LLMs trained with general texts encounter challenges in aligning with the heterogeneous and implicit user behaviors as they rarely observe such inputs during pre-training.
-The included sub-skills and tasks include:
-- **Query-Query Relations**:
-  - Query Re-Writing
-  - Query-Query Intention Selection
-  - Intention-Based Related Query Retrieval
-- **Query-Product Relations**:
-  - Product Category Selection for Query
-  - Query-Product Relation Selection
-  - Query-Product Ranking
-- **Sessions**:
-  - Session-based Query Recommendation
-  - Session-based Next Query Selection
-  - Session-based Next Product Selection
-- **Purchases**:
-  - Product Co-Purchase Selection
-  - Product Co-Purchase Retrieval
-- **Reviews and QA**:
-  - Review Rating Prediction
-  - Aspect-Sentiment-Based Review Generation
-  - Review Helpfulness Selection
-  - Product-Based Question Answering
-"""
-LEADERBOARD_MD['Multi-lingual Abilities'] = """
-## Multi-lingual Abilities Evaluation Results
-Multi-lingual models are desired in online shopping as they can be deployed in multiple marketplaces without re-training.
-The included sub-skills and tasks include:
-- **Multi-lingual Shopping Concept Understanding**:
-  - Multi-lingual Product Title Generation
-  - Multi-lingual Product Keyphrase Selection
-  - Cross-lingual Product Title Translation
-  - Cross-lingual Product Entity Alignment
-- **Multi-lingual User Behavior Alignment**:
-  - Multi-lingual Query-product Relation Selection
-  - Multi-lingual Query-product Ranking
-  - Multi-lingual Session-based Product Recommendation
-"""

 - Metrics:
   - Accuracy, ROUGE-L, and F1.
+"""