AddressScrapV2

Sleeping

App Files Files Community

mattritchey commited on Oct 25, 2023

Commit

7149684

1 Parent(s): 56aaa78

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -26

app.py CHANGED Viewed

@@ -7,12 +7,29 @@ import re
 from bs4 import BeautifulSoup
 import time
 from joblib import Parallel, delayed
 @st.cache_data
 def convert_df(df):
     return df.to_csv()
 def extract_website_domain(url):
     parsed_url = urlparse(url)
     return parsed_url.netloc
@@ -50,7 +67,7 @@ def google_address(address):
     df=pd.DataFrame(texts_links_des,columns=['Title','Link','Description'])
     df['Description']=df['Description'].bfill()
-    df['Address']=df['Title'].str.extract(r'(.+? \d{5})')
     df['Link']=[i[7:i.find('&sa=')] for i in df['Link']]
     df['Website'] = df['Link'].apply(extract_website_domain)
@@ -64,12 +81,15 @@ def google_address(address):
     df['Baths']=df['Baths'].str.extract(r'([\d.]+)').astype(float)
     df['Year Built']=df['Description'].str.extract(r"built in (\d{4})")
-    df_final=df[df['Address'].notnull()]
-    df_final=df_final[(df_final['Address'].str.contains(str(address_number))) & (df_final['Address'].str.contains(str(address_zip)))]
-    df_final.insert(0,'Address Input',address)
-    return df_final
 def catch_errors(addresses):
     try:
@@ -84,18 +104,14 @@ def process_multiple_address(addresses):
 st.set_page_config(layout="wide")
-# col1, col2 = st.columns((2))
-address_file = st.sidebar.radio('Choose',('Single Address', 'File'))
 address = st.sidebar.text_input("Address", "190 Pebble Creek Dr Etna, OH 43062")
 uploaded_file = st.sidebar.file_uploader("Choose a file")
-# uploaded_file='C:/Users/mritchey/Documents/addresses 100 generated.xlsx'
 return_sq = st.sidebar.radio('Return Only Results with Square Footage',('No', 'Yes'))
 if address_file == 'File' and not None:
     try:
         df = pd.read_csv(uploaded_file)
@@ -110,30 +126,38 @@ if address_file == 'File' and not None:
     results= process_multiple_address(df['Address All'].values)
     results=pd.concat(results).reset_index(drop=1)
-    results.index=results.index+1
 else:
     results=google_address(address).reset_index(drop=1)
-    results.index=results.index+1
-results=results[['Address Input', 'Address', 'Website','Square Footage', 'Beds', 'Baths', 'Year Built',
  'Link', 'Description',
       ]]
 if return_sq=='Yes':
     results=results.query("`Square Footage`==`Square Footage`").reset_index(drop=1)
-    results.index=results.index+1
-st.dataframe(
-    results,
-    column_config={
-        "Link": st.column_config.LinkColumn("Link"),
-    },
-    hide_index=True,
-)
 csv2 = convert_df(results)
 st.download_button(

 from bs4 import BeautifulSoup
 import time
 from joblib import Parallel, delayed
+from nltk import ngrams
 @st.cache_data
 def convert_df(df):
     return df.to_csv()
+def normalize_string(string):
+    normalized_string = string.lower()
+    normalized_string = re.sub(r'[^\w\s]', '', normalized_string)
+    return normalized_string
+def jaccard_similarity(string1, string2,n = 2, normalize=True):
+    if normalize:
+       string1,string2= normalize_string(string1),normalize_string(string2)
+    grams1 = set(ngrams(string1, n))
+    grams2 = set(ngrams(string2, n))
+    similarity = len(grams1.intersection(grams2)) / len(grams1.union(grams2))
+    return similarity
 def extract_website_domain(url):
     parsed_url = urlparse(url)
     return parsed_url.netloc
     df=pd.DataFrame(texts_links_des,columns=['Title','Link','Description'])
     df['Description']=df['Description'].bfill()
+    df['Address Output']=df['Title'].str.extract(r'(.+? \d{5})')
     df['Link']=[i[7:i.find('&sa=')] for i in df['Link']]
     df['Website'] = df['Link'].apply(extract_website_domain)
     df['Baths']=df['Baths'].str.extract(r'([\d.]+)').astype(float)
     df['Year Built']=df['Description'].str.extract(r"built in (\d{4})")
+    df['Match Percent']=[jaccard_similarity(address,i)*100 for i in df['Address Output']]
+    # df_final=df[df['Address Output'].notnull()]
+    # df_final=df_final[(df_final['Address Output'].str.contains(str(address_number))) & (df_final['Address Output'].str.contains(str(address_zip)))]
+    df.insert(0,'Address Input',address)
+    return df
 def catch_errors(addresses):
     try:
 st.set_page_config(layout="wide")
 address = st.sidebar.text_input("Address", "190 Pebble Creek Dr Etna, OH 43062")
 uploaded_file = st.sidebar.file_uploader("Choose a file")
+address_file = st.sidebar.radio('Choose',('Single Address', 'File'))
+match_percent = st.sidebar.selectbox('Address Match Percentage At Least:',(70, 80, 90, 100, 0))
 return_sq = st.sidebar.radio('Return Only Results with Square Footage',('No', 'Yes'))
 if address_file == 'File' and not None:
     try:
         df = pd.read_csv(uploaded_file)
     results= process_multiple_address(df['Address All'].values)
     results=pd.concat(results).reset_index(drop=1)
+    # results.index=results.index+1
 else:
     results=google_address(address).reset_index(drop=1)
+    # results.index=results.index+1
+results=results[['Address Input', 'Address Output','Match Percent', 'Website','Square Footage', 'Beds', 'Baths', 'Year Built',
  'Link', 'Description',
       ]]
+results=results.query(f"`Match Percent`>={match_percent}")
 if return_sq=='Yes':
     results=results.query("`Square Footage`==`Square Footage`").reset_index(drop=1)
+    # results.index=results.index+1
+with st.container():
+    st.dataframe(
+        results,
+        column_config={
+            "Link": st.column_config.LinkColumn("Link"),
+            'Match Percent': st.column_config.NumberColumn(format='%.2f %%'),
+        },
+        hide_index=True,
+        # height=500,
+        # width=500,
+    )
 csv2 = convert_df(results)
 st.download_button(