Diezu commited on
Commit
ccf389e
·
verified ·
1 Parent(s): 678d764

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +5 -5
app.py CHANGED
@@ -1,6 +1,6 @@
1
  import streamlit as st
2
  from transformers import pipeline
3
- from underthesea import word_tokenize # Thư viện tokenize cho tiếng Việt
4
  import difflib
5
 
6
  # Cấu hình ứng dụng
@@ -62,7 +62,7 @@ st.markdown(custom_css, unsafe_allow_html=True)
62
  st.title("Correct Spelling Mistakes App")
63
 
64
  # Load mô hình
65
- model_checkpoint = "Diezu/bat_pho_bo"
66
  correct_spelling = pipeline("text2text-generation", model=model_checkpoint)
67
 
68
  # Nhập liệu từ người dùng
@@ -76,9 +76,9 @@ if st.button("Get Result"):
76
  result = correct_spelling(context, max_length=MAX_LENGTH)
77
  corrected_text = result[0]['generated_text'] if result else "No output generated."
78
 
79
- # Tokenize tiếng Việt
80
- original_tokens = word_tokenize(context, format="text").split()
81
- corrected_tokens = word_tokenize(corrected_text, format="text").split()
82
 
83
  # So sánh các từ và tìm từ thay đổi
84
  def highlight_differences(original, corrected):
 
1
  import streamlit as st
2
  from transformers import pipeline
3
+ from vitokenize import vitokenize # Thư viện vitokenize để tokenize tiếng Việt
4
  import difflib
5
 
6
  # Cấu hình ứng dụng
 
62
  st.title("Correct Spelling Mistakes App")
63
 
64
  # Load mô hình
65
+ model_checkpoint = "Diezu/bat_pho_bo" # Thay đổi checkpoint phù hợp
66
  correct_spelling = pipeline("text2text-generation", model=model_checkpoint)
67
 
68
  # Nhập liệu từ người dùng
 
76
  result = correct_spelling(context, max_length=MAX_LENGTH)
77
  corrected_text = result[0]['generated_text'] if result else "No output generated."
78
 
79
+ # Tokenize tiếng Việt sử dụng vitokenize
80
+ original_tokens = vitokenize(context)
81
+ corrected_tokens = vitokenize(corrected_text)
82
 
83
  # So sánh các từ và tìm từ thay đổi
84
  def highlight_differences(original, corrected):