Spaces:

Detomo
/

meisaicheck-api

Running

App Files Files Community

vumichien commited on Mar 1

Commit

fe6002b

1 Parent(s): 747827c

upload sample

Browse files

Files changed (7) hide show

.gitignore +3 -1
data/sampleData.csv +0 -0
data/sample_name_sentence_embeddings(cl-nagoya-sup-simcse-ja-base).pkl +3 -0
data/sample_name_sentence_similarities(cl-nagoya-sup-simcse-ja-base).pkl +3 -0
data/subjectData.csv +128 -0
main.py +152 -14
requirements.txt +4 -1

.gitignore CHANGED Viewed

@@ -8,4 +8,6 @@ wheels/
 # Virtual environments
 .venv
-meisai-check-ai/

 # Virtual environments
 .venv
+meisai-check-ai/
+uploads/
+outputs/

data/sampleData.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

data/sample_name_sentence_embeddings(cl-nagoya-sup-simcse-ja-base).pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37d23eb2818b20c0ca22c227260378a325207ccc37f0a3567a9ecfe89fb87c2e
+size 17768611

data/sample_name_sentence_similarities(cl-nagoya-sup-simcse-ja-base).pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a50b8dd5d6625d23fdf960eaaecf550fd3119c9267ef5e7408dae99c1a16577f
+size 133819030

data/subjectData.csv ADDED Viewed

	@@ -0,0 +1,128 @@

+科目,正解の科目
+共通仮設費,共通仮設費
+直接仮設,直接仮設
+土工,土工
+地業,地業
+鉄筋,鉄筋
+ｺﾝｸﾘｰﾄ,コンクリート
+型枠,型枠
+鉄骨,鉄骨
+既製ｺﾝｸﾘｰﾄ,既製コンクリート
+防水,防水
+木工,木工
+屋根及びとい,屋根及びとい
+金属,金属
+左官,左官
+建具,建具
+ｶﾞﾗｽ,建具
+塗装,塗装
+内外装,内外装
+ﾕﾆｯﾄ及びその他,ユニット及びその他
+追加反映事項,ユニット及びその他
+石,石
+ﾀｲﾙ,タイル
+金属製建具,建具
+木製建具,建具
+ﾕﾆｯﾄ及びとい,ユニット及びその他
+囲障,囲障
+構内舗装,構内舗装
+屋外排水,屋外排水
+植栽,植栽
+その他工作物,その他工作物
+擁壁工,擁壁工
+歩道切り下げ,構内舗装
+発生材処分,発生材処理
+躯体解体,とりこわし
+仕上撤去,とりこわし
+幹線設備,とりこわし
+発生剤処理,とりこわし
+撤去工事,とりこわし
+発生材処理,発生材処理
+外構解体,とりこわし
+昇降機,昇降機
+既存公会堂地下躯体解体撤去,とりこわし
+管理室解体撤去,とりこわし
+舗装他解体撤去,とりこわし
+コンクリート,コンクリート
+免震,免震
+既製コンクリート,既製コンクリート
+タイル,タイル
+ユニット及びその他,ユニット及びその他
+屋外,屋外排水
+歩道部撤去改修,構内舗装
+新本庁舎昇降機工事,昇降機
+尾道市役所解体撤去（Ｋ－１）,とりこわし
+発電設備解体撤去（Ｋ－２）,とりこわし
+便所解体撤去（Ｋ－３）,とりこわし
+駐輪場解体撤去（Ｋ－４）,とりこわし
+駐輪場解体撤去（Ｋ－５）,とりこわし
+舗装他解体撤去（Ｇ）,とりこわし
+アスベスト調査、処分費,とりこわし
+機器、器具設備,機械設備
+配管設備,機械設備
+電気設備工事,電気設備
+電気設備,電気設備
+思いやり駐車場庇,附属棟
+車寄せ庇,附属棟
+直接仮設工事,直接仮設
+土工事,土工
+地業工事,地業
+鉄筋工事,鉄筋
+コンクリート工事,コンクリート
+型枠工事,型枠
+鉄骨工事,鉄骨
+既製コンクリート工事,既製コンクリート
+防水工事,防水
+タイル工事,タイル
+屋根及びとい工事,屋根及びとい
+金属工事,金属
+左官工事,左官
+建具工事,建具
+カーテンウォール,カーテンウォール
+塗装工事,塗装
+内外装工事,内外装
+ユニット及びその他工事,ユニット及びその他
+建設副産物処理費,とりこわし
+木工事,木工
+1ユニット及びその他工事,ユニット及びその他
+1内外装工事,内外装
+排水,屋外排水
+石工事,石
+解体工事,とりこわし
+木,木工
+屋根及び樋,屋根及びとい
+ｻｲﾝ,ユニット及びその他
+改修,改修
+大口径気送管設備,機械設備
+小荷物搬送用昇降機,昇降機
+下請諸経費,諸経費
+舗装工事,構内舗装
+囲障工事,囲障
+排水工事,屋外排水
+植栽工事,植栽
+その他工事,ユニット及びその他
+撤去,とりこわし
+躯体改修,改修
+外壁改修,改修
+建具改修,改修
+内装改修,改修
+塗装改修,改修
+発生材,とりこわし
+防水改修,改修
+解体,とりこわし
+電機設備,電気設備
+機械設備,機械設備
+エレベーター設備,昇降機
+免震装置,免震
+区画工事,
+樹木撤去工事,とりこわし
+既存杭撤去,とりこわし
+昇降機設備,昇降機
+とりこわし,とりこわし
+PC合成床板,ＰＣ
+外構,構内舗装
+旧別館基礎,とりこわし
+旧議会庁舎基礎,とりこわし
+建築,鉄筋
+上屋工事,附属棟
+設備工事解体工事と連絡通路など,とりこわし

main.py CHANGED Viewed

@@ -1,21 +1,109 @@
 import sys
 import os
 import time
-from fastapi import FastAPI
 import uvicorn
 import traceback
-# Điều chỉnh đường dẫn để import từ thư mục meisai-check-ai
 current_dir = os.path.dirname(os.path.abspath(__file__))
 sys.path.append(os.path.join(current_dir, "meisai-check-ai"))
 from sentence_transformer_lib.sentence_transformer_helper import (
     SentenceTransformerHelper,
 )
-from data_lib.base_data import BaseData
 from data_lib.input_name_data import InputNameData
-app = FastAPI()
 @app.get("/")
@@ -28,18 +116,68 @@ async def health_check():
     return {"status": "ok", "timestamp": time.time()}
-@app.get("/test-dependencies")
-async def test_dependencies():
     try:
-        # Kiểm tra các dependencies đã được import thành công
-        transformer_helper = SentenceTransformerHelper()
-        return {"status": "success", "message": "All dependencies loaded successfully"}
     except Exception as e:
-        return {
-            "status": "error",
-            "message": str(e),
-            "traceback": traceback.format_exc(),
-        }
 if __name__ == "__main__":

 import sys
 import os
 import time
+from fastapi import FastAPI, UploadFile, File, HTTPException
+from fastapi.responses import FileResponse
 import uvicorn
 import traceback
+import pickle
+import shutil
+from pathlib import Path
+from contextlib import asynccontextmanager
+import pandas as pd
 current_dir = os.path.dirname(os.path.abspath(__file__))
 sys.path.append(os.path.join(current_dir, "meisai-check-ai"))
 from sentence_transformer_lib.sentence_transformer_helper import (
     SentenceTransformerHelper,
 )
 from data_lib.input_name_data import InputNameData
+from data_lib.subject_data import SubjectData
+from data_lib.sample_name_data import SampleNameData
+from clustering_lib.sentence_clustering_lib import SentenceClusteringLib
+from data_lib.base_data import (
+    COL_STANDARD_NAME,
+    COL_STANDARD_NAME_KEY,
+    COL_STANDARD_SUBJECT,
+)
+from mapping_lib.name_mapping_helper import NameMappingHelper
+# Initialize global variables for model and data
+sentenceTransformerHelper = None
+dic_standard_subject = None
+sample_name_sentence_embeddings = None
+sample_name_sentence_similarities = None
+sampleData = None
+sentence_clustering_lib = None
+name_groups = None
+# Create data directory if it doesn't exist
+os.makedirs(os.path.join(current_dir, "data"), exist_ok=True)
+os.makedirs(os.path.join(current_dir, "uploads"), exist_ok=True)
+os.makedirs(os.path.join(current_dir, "outputs"), exist_ok=True)
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """Lifespan context manager for startup and shutdown events"""
+    global sentenceTransformerHelper, dic_standard_subject, sample_name_sentence_embeddings
+    global sample_name_sentence_similarities, sampleData, sentence_clustering_lib, name_groups
+    try:
+        # Load sentence transformer model
+        sentenceTransformerHelper = SentenceTransformerHelper(
+            convert_to_zenkaku_flag=True, replace_words=None, keywords=None
+        )
+        sentenceTransformerHelper.load_model_by_name(
+            "Detomo/cl-nagoya-sup-simcse-ja-for-standard-name-v1_0"
+        )
+        # Load standard subject dictionary
+        dic_standard_subject = SubjectData.create_standard_subject_dic_from_file(
+            "data/subjectData.csv"
+        )
+        # Load pre-computed embeddings and similarities
+        with open(
+            f"data/sample_name_sentence_embeddings(cl-nagoya-sup-simcse-ja-base).pkl",
+            "rb",
+        ) as f:
+            sample_name_sentence_embeddings = pickle.load(f)
+        with open(
+            f"data/sample_name_sentence_similarities(cl-nagoya-sup-simcse-ja-base).pkl",
+            "rb",
+        ) as f:
+            sample_name_sentence_similarities = pickle.load(f)
+        # Load and process sample data
+        sampleData = SampleNameData()
+        file_path = os.path.join(current_dir, "data", "sampleData.csv")
+        sampleData.load_data_from_csv(file_path)
+        sampleData.process_data()
+        # Create sentence clusters
+        sentence_clustering_lib = SentenceClusteringLib(sample_name_sentence_embeddings)
+        best_name_eps = 0.07
+        name_groups, _ = sentence_clustering_lib.create_sentence_cluster(best_name_eps)
+        sampleData._create_key_column(
+            COL_STANDARD_NAME_KEY, COL_STANDARD_SUBJECT, COL_STANDARD_NAME
+        )
+        sampleData.set_name_sentence_labels(name_groups)
+        sampleData.build_search_tree()
+        print("Models and data loaded successfully")
+    except Exception as e:
+        print(f"Error during startup: {e}")
+        traceback.print_exc()
+    yield  # This is where the app runs
+    # Cleanup code (if needed) goes here
+    print("Shutting down application")
+app = FastAPI(lifespan=lifespan)
 @app.get("/")
     return {"status": "ok", "timestamp": time.time()}
+@app.post("/predict")
+async def predict(file: UploadFile = File(...)):
+    """
+    Process an input CSV file and return standardized names
+    """
+    global sentenceTransformerHelper, dic_standard_subject, sample_name_sentence_embeddings
+    global sample_name_sentence_similarities, sampleData, name_groups
+    if not file.filename.endswith(".csv"):
+        raise HTTPException(status_code=400, detail="Only CSV files are supported")
+    # Save uploaded file
+    timestamp = int(time.time())
+    input_file_path = os.path.join(current_dir, "uploads", f"input_{timestamp}.csv")
+    # Change output file to Excel format
+    output_file_path = os.path.join(current_dir, "outputs", f"output_{timestamp}.xlsx")
+    try:
+        with open(input_file_path, "wb") as buffer:
+            shutil.copyfileobj(file.file, buffer)
+    finally:
+        file.file.close()
     try:
+        # Process input data
+        inputData = InputNameData(dic_standard_subject)
+        inputData.load_data_from_csv(input_file_path)
+        inputData.process_data()
+        # Map standard names
+        nameMappingHelper = NameMappingHelper(
+            sentenceTransformerHelper,
+            inputData,
+            sampleData,
+            sample_name_sentence_embeddings,
+            sample_name_sentence_similarities,
+        )
+        df_predicted = nameMappingHelper.map_standard_names()
+        # Create output dataframe and save to CSV - Fix SettingWithCopyWarning by creating a copy
+        columns_to_keep = ["ファイル名", "シート名", "行", "科目", "名称"]
+        output_df = inputData.dataframe[columns_to_keep].copy()
+        # Use .loc to avoid SettingWithCopyWarning
+        output_df.loc[:, COL_STANDARD_SUBJECT] = df_predicted[COL_STANDARD_SUBJECT]
+        output_df.loc[:, COL_STANDARD_NAME] = df_predicted[COL_STANDARD_NAME]
+        # Save as Excel file instead of CSV for better Japanese character support
+        output_df.to_excel(output_file_path, index=False, engine="openpyxl")
+        # Return the Excel file as a download
+        return FileResponse(
+            path=output_file_path,
+            filename=f"output_{Path(file.filename).stem}.xlsx",
+            media_type="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
+        )
     except Exception as e:
+        print(f"Error processing file: {e}")
+        traceback.print_exc()
+        raise HTTPException(status_code=500, detail=str(e))
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -15,4 +15,7 @@ oauth2client
 wandb
 scikit-learn
 fastapi
-uvicorn

 wandb
 scikit-learn
 fastapi
+uvicorn
+matplotlib
+openpyxl
+pandas