Spaces:

srini047
/

text-based-sentiment-analyzer

Build error

App Files Files Community

srini047 commited on Sep 9, 2022

Commit

3328b56

•

1 Parent(s): 1f2e957

[clean]: removed chunks

Browse files

Files changed (1) hide show

sentiment.py +3 -99

sentiment.py CHANGED Viewed

@@ -1,51 +1,28 @@
 import numpy as np # For linear algebra
 import pandas as pd # Data processing, CSV file I/O (e.g. pd.read_csv)
 import matplotlib.pyplot as plt  # For Visualisation
-# get_ipython().run_line_magic('matplotlib', 'inline')
 import seaborn as sns  # For Visualisation
 from bs4 import BeautifulSoup  # For Text Parsing
 # # IMPORTING DATASET
-# In[2]:
 data = pd.read_csv('Reviews.csv')
 # data
 # # DATA PREPROCESSING & VISUALISATION
-# In[3]:
 #data.isnull().sum()
-# In[4]:
 data=data.dropna()
 #data.isnull().sum()
-# In[5]:
 #data.shape
-# In[6]:
 score_unique = data['Score'].unique()
 #print(score_unique)
-# In[7]:
 #   0-> NEGATIVE REVIEW
 #   1-> NEUTRAL REVIEW
 #   2-> POSTIVE REVIEW
@@ -58,10 +35,6 @@ for i in data['Score']:
     if i>3:
         a.append(2)
-# In[8]:
 r_0, r_1, r_2 = 0, 0, 0
 for i in a:
     if i == 0:
@@ -75,10 +48,6 @@ for i in a:
 # print('Neutral Reviews:',r_1)
 # print('Positive Reviews:',r_2)
-# In[9]:
 # sns.countplot(a)
 # plt.xlabel('Reviews', color = 'red')
 # plt.ylabel('Count', color = 'red')
@@ -86,42 +55,22 @@ for i in a:
 # plt.title('COUNT PLOT', color = 'r')
 # plt.show()
-# In[10]:
 data['sentiment']=a
 #data
 final_dataset = data[['Text','sentiment']]
 #final_dataset
-# In[11]:
 data_p=final_dataset[data['sentiment']==2]
 data_n=final_dataset[data['sentiment']==0]
 #len(data_p), len(data_n)
-# In[12]:
 datap = data_p.iloc[np.random.randint(1,443766,5000), :]
 datan = data_n.iloc[np.random.randint(1, 82007,5000), :]
 #len(datan), len(datap)
-# In[13]:
 data = pd.concat([datap,datan])
 len(data)
-# In[14]:
 c=[]
 for i in data['sentiment']:
     if i==0:
@@ -130,17 +79,6 @@ for i in data['sentiment']:
         c.append(1)
 data['sentiment']=c
-# In[15]:
-# sns.countplot(data['sentiment'])
-# plt.show()
-# In[16]:
 def strip_html(text):
     soup = BeautifulSoup(text, "html.parser")
     return soup.get_text()
@@ -150,12 +88,6 @@ data=data.drop('Text',axis=1)
 #data.head()
-# # MODEL BUILDING
-# In[17]:
 import nltk  #Natural Language Processing Toolkit
 def punc_clean(text):
     import string as st
@@ -164,10 +96,6 @@ def punc_clean(text):
 data['review'] = data['review'].apply(punc_clean)
 #data.head(2)
-# In[18]:
 def remove_stopword(text):
     stopword=nltk.corpus.stopwords.words('english')
     stopword.remove('not')
@@ -175,10 +103,6 @@ def remove_stopword(text):
     return ' '.join(a)
 #data['review'] = data['review'].apply(remove_stopword)
-# In[19]:
 from sklearn.feature_extraction.text import TfidfVectorizer
 vectr = TfidfVectorizer(ngram_range=(1,2),min_df=1)
@@ -187,9 +111,6 @@ vectr.fit(data['review'])
 vect_X = vectr.transform(data['review'])
-# In[20]:
 from sklearn.linear_model import LogisticRegression
 model = LogisticRegression()
@@ -200,28 +121,11 @@ clf=model.fit(vect_X,data['sentiment'])
 # # PREDICTION
-# In[21]:
-clf.predict(vectr.transform(['''Nice look and build quality with moderately fast everything such as refresh rate, display quality, sound, processing, gaming experience and many more ..
-I didn't find any lagging or heating issue..And battery health I won't say great but I'll take that
-Only cons I can say about it is camera.. sharpening picture a little much at day light and low light photo you have to compromise.''']))
-# In[22]:
-clf.predict(vectr.transform(['''Phone has bugs , and screen quality is poor , Avoid realme. Gaming was just over hyped''']))
-# In[23]:
-clf.predict(vectr.transform(['''No lags found super speed and very good performance nice phone in this budget''']))
-# In[ ]:

 import numpy as np # For linear algebra
 import pandas as pd # Data processing, CSV file I/O (e.g. pd.read_csv)
 import matplotlib.pyplot as plt  # For Visualisation
 import seaborn as sns  # For Visualisation
 from bs4 import BeautifulSoup  # For Text Parsing
 # # IMPORTING DATASET
 data = pd.read_csv('Reviews.csv')
 # data
 # # DATA PREPROCESSING & VISUALISATION
 #data.isnull().sum()
 data=data.dropna()
 #data.isnull().sum()
 #data.shape
 score_unique = data['Score'].unique()
 #print(score_unique)
 #   0-> NEGATIVE REVIEW
 #   1-> NEUTRAL REVIEW
 #   2-> POSTIVE REVIEW
     if i>3:
         a.append(2)
 r_0, r_1, r_2 = 0, 0, 0
 for i in a:
     if i == 0:
 # print('Neutral Reviews:',r_1)
 # print('Positive Reviews:',r_2)
 # sns.countplot(a)
 # plt.xlabel('Reviews', color = 'red')
 # plt.ylabel('Count', color = 'red')
 # plt.title('COUNT PLOT', color = 'r')
 # plt.show()
 data['sentiment']=a
 #data
 final_dataset = data[['Text','sentiment']]
 #final_dataset
 data_p=final_dataset[data['sentiment']==2]
 data_n=final_dataset[data['sentiment']==0]
 #len(data_p), len(data_n)
 datap = data_p.iloc[np.random.randint(1,443766,5000), :]
 datan = data_n.iloc[np.random.randint(1, 82007,5000), :]
 #len(datan), len(datap)
 data = pd.concat([datap,datan])
 len(data)
 c=[]
 for i in data['sentiment']:
     if i==0:
         c.append(1)
 data['sentiment']=c
 def strip_html(text):
     soup = BeautifulSoup(text, "html.parser")
     return soup.get_text()
 #data.head()
 import nltk  #Natural Language Processing Toolkit
 def punc_clean(text):
     import string as st
 data['review'] = data['review'].apply(punc_clean)
 #data.head(2)
 def remove_stopword(text):
     stopword=nltk.corpus.stopwords.words('english')
     stopword.remove('not')
     return ' '.join(a)
 #data['review'] = data['review'].apply(remove_stopword)
 from sklearn.feature_extraction.text import TfidfVectorizer
 vectr = TfidfVectorizer(ngram_range=(1,2),min_df=1)
 vect_X = vectr.transform(data['review'])
 from sklearn.linear_model import LogisticRegression
 model = LogisticRegression()
 # # PREDICTION
+# clf.predict(vectr.transform(['''Nice look and build quality with moderately fast everything such as refresh rate, display quality, sound, processing, gaming experience and many more .. I didn't find any lagging or heating issue..And battery health I won't say great but I'll take that, Only cons I can say about it is camera.. sharpening picture a little much at day light and low light photo you have to compromise.''']))
+# clf.predict(vectr.transform(['''Phone has bugs , and screen quality is poor , Avoid realme. Gaming was just over hyped''']))
+# clf.predict(vectr.transform(['''No lags found super speed and very good performance nice phone in this budget''']))