Spaces:

Detomo
/

meisaicheck-api

Running

App Files Files Community

vumichien commited on Apr 21

Commit

aeac4b2

1 Parent(s): df40595

fix raw predict

Browse files

Files changed (2) hide show

models.py +6 -1
routes/predict.py +45 -8

models.py CHANGED Viewed

@@ -37,9 +37,14 @@ class PredictRecord(BaseModel):
 class PredictResult(BaseModel):
     standard_subject: str
     standard_name: str
-    anchor_name: str
     similarity_score: float

 class PredictResult(BaseModel):
+    subject: str
+    sub_subject: str
+    name_category: str
+    name: str
+    abstract: Optional[str] = None
+    memo: Optional[str] = None
     standard_subject: str
     standard_name: str
     similarity_score: float

routes/predict.py CHANGED Viewed

@@ -181,31 +181,68 @@ async def predict_raw(
             inputData = InputNameData(sentence_service.dic_standard_subject)
             # Use _add_raw_data instead of direct assignment
             inputData._add_raw_data(df)
-            inputData.process_data(sentence_service.sentenceTransformerHelper)
         except Exception as e:
             print(f"Error processing input data: {e}")
             raise HTTPException(status_code=500, detail=str(e))
         # Map standard names
         try:
             nameMapper = NameMapper(
                 sentence_service.sentenceTransformerHelper,
                 sentence_service.standardNameMapData,
-                top_count=3,
             )
             df_predicted = nameMapper.predict(inputData)
         except Exception as e:
             print(f"Error mapping standard names: {e}")
             raise HTTPException(status_code=500, detail=str(e))
         # Convert results to response format
         results = []
-        for _, row in df_predicted.iterrows():
             result = PredictResult(
-                standard_subject=row["標準科目"],
-                standard_name=row["標準項目名"],
-                anchor_name=row["基準名称"],
-                similarity_score=float(row["基準名称類似度"]),
             )
             results.append(result)

             inputData = InputNameData(sentence_service.dic_standard_subject)
             # Use _add_raw_data instead of direct assignment
             inputData._add_raw_data(df)
         except Exception as e:
             print(f"Error processing input data: {e}")
             raise HTTPException(status_code=500, detail=str(e))
+        try:
+            subject_mapper = SubjectMapper(
+                sentence_transformer_helper=sentence_service.sentenceTransformerHelper,
+                dic_subject_map=sentence_service.dic_standard_subject,
+                similarity_threshold=0.9,
+            )
+            dic_subject_map = subject_mapper.map_standard_subjects(inputData.dataframe)
+        except Exception as e:
+            print(f"Error processing SubjectMapper: {e}")
+            raise HTTPException(status_code=500, detail=str(e))
+        try:
+            inputData.dic_standard_subject = dic_subject_map
+            inputData.process_data()
+        except Exception as e:
+            print(f"Error processing inputData process_data: {e}")
+            raise HTTPException(status_code=500, detail=str(e))
         # Map standard names
         try:
             nameMapper = NameMapper(
                 sentence_service.sentenceTransformerHelper,
                 sentence_service.standardNameMapData,
+                top_count=3
             )
             df_predicted = nameMapper.predict(inputData)
         except Exception as e:
             print(f"Error mapping standard names: {e}")
+            traceback.print_exc()
             raise HTTPException(status_code=500, detail=str(e))
+        important_columns = ['確定', '標準科目', '標準項目名', '基準名称類似度']
+        for column in important_columns:
+            if column not in df_predicted.columns:
+                if column != '基準名称類似度':
+                    df_predicted[column] = ""
+                    inputData.dataframe[column] = ""
+                else:
+                    df_predicted[column] = 0
+                    inputData.dataframe[column] = 0
+        column_to_keep = ['シート名', '行', '科目', '中科目', '分類', '名称', '摘要', '備考', '確定']
+        output_df = inputData.dataframe[column_to_keep].copy()
+        output_df.reset_index(drop=False, inplace=True)
+        output_df.loc[:, "出力_科目"] = df_predicted["標準科目"]
+        output_df.loc[:, "出力_項目名"] = df_predicted["標準項目名"]
+        output_df.loc[:, "出力_確率度"] = df_predicted["基準名称類似度"]
         # Convert results to response format
         results = []
+        for _, row in output_df.iterrows():
             result = PredictResult(
+                subject=row["科目"],
+                sub_subject=row["中科目"],
+                name_category=row["分類"],
+                name=row["名称"],
+                abstract=row["摘要"],
+                memo=row["備考"],
+                standard_subject=row["出力_科目"],
+                standard_name=row["出力_項目名"],
+                similarity_score=float(row["出力_確率度"]),
             )
             results.append(result)