Spaces:

billusanda007
/

Resume-Ranker

Sleeping

App Files Files Community

Jeet Paul commited on Jul 30, 2023

Commit

e249a3c

1 Parent(s): 00e257b

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -8

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import streamlit as st
-from tika import parser
 import pandas as pd
 from sklearn.preprocessing import LabelEncoder
 from sklearn.feature_extraction.text import TfidfVectorizer
@@ -7,6 +6,8 @@ from sklearn.multiclass import OneVsRestClassifier
 from sklearn.neighbors import KNeighborsClassifier
 import re
 import pickle
 def cleanResume(resumeText):
     # Your existing cleanResume function remains unchanged
@@ -35,9 +36,8 @@ model = OneVsRestClassifier(KNeighborsClassifier())
 model.fit(WordFeatures, target)
 def pdf_to_text(file):
-    # Use tika to extract text from the PDF file
-    file_data = parser.from_buffer(file.read())
-    text = file_data['content']
     return text
 def predict_category(resumes_data, selected_category):
@@ -64,7 +64,7 @@ def main():
     st.title("Resume Ranking App")
     st.text("Upload resumes and select a category to rank them.")
-    tika_server_url = "http://localhost:58830/"
     resumes_data = []
     selected_category = ""
@@ -73,10 +73,8 @@ def main():
     files = st.file_uploader("Upload resumes", type=["pdf"], accept_multiple_files=True)
     if files:
         for file in files:
-            file_data = parser.from_buffer(file.read(), serverEndpoint=tika_server_url)
-            text = cleanResume(pdf_to_text(file_data))
             resumes_data.append({'ResumeText': text, 'FileName': file.name})
         selected_category = st.selectbox("Select a category to rank by", label.classes_)
     if st.button("Rank Resumes"):

 import streamlit as st
 import pandas as pd
 from sklearn.preprocessing import LabelEncoder
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.neighbors import KNeighborsClassifier
 import re
 import pickle
+import pdfminer
+from pdfminer.high_level import extract_text
 def cleanResume(resumeText):
     # Your existing cleanResume function remains unchanged
 model.fit(WordFeatures, target)
 def pdf_to_text(file):
+    # Use pdfminer.six to extract text from the PDF file
+    text = extract_text(file)
     return text
 def predict_category(resumes_data, selected_category):
     st.title("Resume Ranking App")
     st.text("Upload resumes and select a category to rank them.")
     resumes_data = []
     selected_category = ""
     files = st.file_uploader("Upload resumes", type=["pdf"], accept_multiple_files=True)
     if files:
         for file in files:
+            text = cleanResume(pdf_to_text(file))
             resumes_data.append({'ResumeText': text, 'FileName': file.name})
         selected_category = st.selectbox("Select a category to rank by", label.classes_)
     if st.button("Rank Resumes"):