Spaces:
Sleeping
Sleeping
File size: 18,203 Bytes
96d2af2 3c78773 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 3c78773 d1dba9f 3c78773 d1dba9f 3c78773 96d2af2 dc21de1 96d2af2 dc21de1 96d2af2 a5c6b5f 96d2af2 dc21de1 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 313587b 96d2af2 313587b 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 a5c6b5f 96d2af2 b76aadb 3c78773 b76aadb a5c6b5f 117007f a5c6b5f 117007f a5c6b5f 96d2af2 a5c6b5f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 |
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import tiktoken, nltk, numpy as np, fasttext, pickle, re
from minivectordb.embedding_model import EmbeddingModel
from sklearn.metrics.pairwise import cosine_similarity
from nltk.tokenize import sent_tokenize
import gradio as gr
nltk.download('punkt')
nltk.download('stopwords')
langdetect_model = fasttext.load_model('lid.176.ftz')
embedding_model = EmbeddingModel(onnx_model_cpu_core_count=2)
english_stopwords = pickle.load(open("en_stopwords.pkl", "rb"))
portuguese_stopwords = pickle.load(open("pt_stopwords.pkl", "rb"))
tokenizer = tiktoken.encoding_for_model("gpt-4")
def count_tokens_tiktoken(text):
return len(tokenizer.encode(text))
def detect_language(text):
detected_lang = langdetect_model.predict(text.replace('\n', ' '), k=1)[0][0]
return 'pt' if (str(detected_lang) == '__label__pt' or str(detected_lang) == 'portuguese') else 'en'
def clean_and_standardize_text(text):
# 1. Standardize spacing around punctuation
text = re.sub(r'\s([.,;:!?])\s', r'\1 ', text)
# 2. Remove extra spaces
text = re.sub(r'\s+', ' ', text).strip()
# 3. Capitalize sentences
sentences = sent_tokenize(text)
text = '. '.join(sentence.capitalize() for sentence in sentences)
# 4. Standardize number formatting
text = re.sub(r'(\d+)\s+(\d+)', r'\1.\2', text)
# 5. Ensure proper spacing after closing parentheses
text = re.sub(r'\)\s*([a-zA-Z])', r') \1', text)
# 6. Preserve bullet points
text = re.sub(r'•\s*', '• ', text)
# 7. Preserve numbered lists
text = re.sub(r'(\d+)\.\s*', r'\1. ', text)
# 8. Standardize date formatting
text = re.sub(r'(\d{2})\s+(\d{2})\s+(\d{4})', r'\1/\2/\3', text)
# 9. Remove extra periods
text = re.sub(r'\.\s+\.', '. ', text)
# 10. Remove spacing around parentheses
text = re.sub(r'\(\s*', '(', text)
text = re.sub(r'\s*\)', ')', text)
# 11. Improve spacing around punctuations
while ' .' in text:
text = text.replace(' .', '.')
while '..' in text:
text = text.replace('..', '.')
while ' ' in text:
text = text.replace(' ', ' ')
text = text.replace(' :', ':')
text = text.replace('- -', '-')
text = text.replace('. -', '.')
# 12. Detect two punctuation marks in a row, keeping the last
text = re.sub(r'([.,]){2,}', r'\1', text)
text = re.sub(r'(?<=[:.])[:.]+', '', text)
return text
def semantic_compress_text(full_text, compression_rate=0.7, num_topics=5):
def calculate_similarity(embed1, embed2):
return cosine_similarity([embed1], [embed2])[0][0]
def create_lda_model(texts, stopwords):
vectorizer = CountVectorizer(stop_words=stopwords)
doc_term_matrix = vectorizer.fit_transform(texts)
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
lda.fit(doc_term_matrix)
return lda, vectorizer
def get_topic_distribution(text, lda, vectorizer):
vec = vectorizer.transform([text])
return lda.transform(vec)[0]
def sentence_importance(sentence, doc_embedding, lda_model, vectorizer, stopwords):
sentence_embedding = embedding_model.extract_embeddings(sentence)
semantic_similarity = calculate_similarity(doc_embedding, sentence_embedding)
topic_dist = get_topic_distribution(sentence, lda_model, vectorizer)
topic_importance = np.max(topic_dist)
# Calculate lexical diversity
words = sentence.split()
unique_words = set([word.lower() for word in words if word.lower() not in stopwords])
lexical_diversity = len(unique_words) / len(words) if words else 0
# Combine factors
importance = (0.6 * semantic_similarity) + (0.3 * topic_importance) + (0.2 * lexical_diversity)
return importance
# Split the text into sentences
sentences = sent_tokenize(full_text)
final_sentences = []
for s in sentences:
broken_sentences = s.split('\n')
final_sentences.extend(broken_sentences)
sentences = final_sentences
text_lang = detect_language(full_text)
# Create LDA model
lda_model, vectorizer = create_lda_model(sentences, portuguese_stopwords if text_lang == 'pt' else english_stopwords)
# Get document-level embedding
doc_embedding = embedding_model.extract_embeddings(full_text)
# Calculate importance for each sentence
sentence_scores = [(sentence, sentence_importance(sentence, doc_embedding, lda_model, vectorizer, portuguese_stopwords if text_lang == 'pt' else english_stopwords))
for sentence in sentences]
# Sort sentences by importance
sorted_sentences = sorted(sentence_scores, key=lambda x: x[1], reverse=True)
# Determine how many words to keep
total_words = sum(len(sentence.split()) for sentence in sentences)
target_words = int(total_words * compression_rate)
# Reconstruct the compressed text
compressed_text = []
current_words = 0
for sentence, _ in sorted_sentences:
sentence_words = len(sentence.split())
if current_words + sentence_words <= target_words:
compressed_text.append(sentence)
current_words += sentence_words
else:
break
# Reorder sentences to maintain original flow
compressed_text.sort(key=lambda x: sentences.index(x))
joined_compressed_text = ' '.join(compressed_text)
joined_compressed_text_cleaned = clean_and_standardize_text(joined_compressed_text)
return joined_compressed_text_cleaned
async def predict(text, word_reduction_factor):
if len(text.split()) > 5000:
return "Text is too long for this demo. Please provide a text with less than 5000 words."
if word_reduction_factor is None:
word_reduction_factor = 0.5
compressed = semantic_compress_text(text, compression_rate= 1 - word_reduction_factor)
perc_reduction = round(100 - (count_tokens_tiktoken(compressed) / count_tokens_tiktoken(text)) * 100, 2)
return f"{compressed}\n\nToken Reduction: {perc_reduction}%"
gradio_examples = [
"""Almost 30 years ago, a revolutionary idea changed the way Europe regarded road collisions. It has probably saved countless lives but it's yet to be fully accepted by politicians. In 1995, a serious crash occurred on the E4 motorway near Stockholm, Sweden. Five young people were travelling in a hatchback car when the vehicle went into a roll near the exit ramp for the Ikea store. The car smashed into a concrete structure supporting a streetlight by the side of the road, and all five passengers were killed. "I am rather sure they were speeding, and as it was wet, they probably aquaplaned," says Claes Tingvall. Almost 30 years on, he struggles to remember all the details – but he is sure about one thing: "The car was a three-door Peugeot 205 GTI, red." More than 500 people died on Sweden's roads that year, but this tragedy signalled a turning point in how Tingvall, and eventually the world, regarded road crashes. An estimated 1.2 million lives are cut short by road traffic collisions globally each year, while millions more suffer often life-changing injuries. While the death toll has decreased slightly over the past 13 years – the number of fatalities on the world's roads are 5% lower than they were in 2010 according to the World Health Organization (WHO) – progress has been slow and falls far short of the WHO's target of halving the number of road deaths by the end of this decade. Today, Sweden has some of the lowest rates of road traffic fatalities in the world, and the story of how the country has strived to bring that number to zero provides a lesson for other countries where the death toll has remained stubbornly high. Back in 1995, Tingvall had become the head of road safety for the Swedish Road Adminstration. He was very well qualified for the role, but quite unlike any of his predecessors. Instead of coming up through the ranks of road transport engineers and bureaucrats, Tingvall had a medical background: he had studied at the renowned Karolinska Institute, where he had gained a doctorate in the epidemiology of injuries.""",
"""Há quase 30 anos, uma ideia revolucionária mudou a forma como a Europa encarava as colisões rodoviárias. Provavelmente salvou inúmeras vidas, mas ainda não foi totalmente aceite pelos políticos. Em 1995, ocorreu um grave acidente na autoestrada E4, perto de Estocolmo, na Suécia. Cinco jovens viajavam em um carro hatch quando o veículo capotou perto da rampa de saída da loja Ikea. O carro bateu em uma estrutura de concreto que sustentava um poste de luz na beira da estrada e todos os cinco passageiros morreram. “Tenho certeza de que eles estavam em alta velocidade e, como estava molhado, provavelmente aquaplanaram”, diz Claes Tingvall. Quase 30 anos depois, ele luta para lembrar de todos os detalhes – mas de uma coisa tem certeza: “O carro era um Peugeot 205 GTI de três portas, vermelho”. Mais de 500 pessoas morreram nas estradas da Suécia naquele ano, mas esta tragédia assinalou um ponto de viragem na forma como Tingvall, e eventualmente o mundo, encaravam os acidentes rodoviários. Estima-se que 1,2 milhões de vidas sejam ceifadas por colisões rodoviárias em todo o mundo todos os anos, enquanto outros milhões sofrem frequentemente lesões que alteram as suas vidas. Embora o número de mortos tenha diminuído ligeiramente ao longo dos últimos 13 anos – o número de vítimas mortais nas estradas mundiais é 5% inferior ao de 2010, segundo a Organização Mundial de Saúde (OMS) – o progresso tem sido lento e fica muito aquém do esperado. A meta da OMS de reduzir para metade o número de mortes nas estradas até ao final desta década. Hoje, a Suécia tem algumas das taxas de mortalidade rodoviária mais baixas do mundo, e a história de como o país se esforçou para reduzir esse número a zero fornece uma lição para outros países onde o número de mortes permaneceu teimosamente elevado. Em 1995, Tingvall tornou-se chefe de segurança rodoviária da Administração Rodoviária Sueca. Ele estava muito bem qualificado para o papel, mas muito diferente de qualquer um de seus antecessores. Em vez de ascender na hierarquia de engenheiros e burocratas de transporte rodoviário, Tingvall tinha formação médica: estudou no renomado Instituto Karolinska, onde obteve o doutorado em epidemiologia de lesões.""",
"""Akin to France's heartier, spicier, richer boeuf bourguignon, "alcatra" is synonymous with a single island in the remote Azores archipelago. The Azores, an archipelago of nine islands belonging to Portugal and located roughly between Europe and the US, are cow country. They're said to be home to more cattle than people, and despite being home to less than 3% of Portugal's population, the islands produce 30% of Portugal's dairy products and 13% of its beef. Beef is part of everyday life in the Azores, and come spring on one particular island, the ingredient even crosses paths with religion. In the days following Easter, Azorean people kick off a series of religious celebrations called Festas do Espírito Santo (Festivals of the Holy Spirit). During the 13th Century, a Catholic sect called the Cult of the Holy Spirit predicted a utopian era on Earth. This fringe faith was discouraged in mainland Europe but lived on in these remote islands in the middle of the Atlantic Ocean. The sect was also promoted by Portuguese queen Elizabeth of Aragon (also known as Elizabeth of Portugal), who was known for her charity. Over the subsequent centuries, a series of festivals emerged on the Azores that blended these utopian aspirations with the queen's alleged generosity. Between Easter and the week following Whitsunday, a total of eight weeks, the islands host a series of parades and other cultural and religious festivals that revolve around brightly coloured community houses called impérios. During this time, the community houses also collect donations from locals, which is then redistributed to people in the form of bread, beef and wine. These three elements generally come together in the form of a soup, called sopa do Espírito Santo, that's served at the impérios during the festivals. But on the island of Terceira, locals combine these ingredients in a different and delicious way, one that's become synonymous with the island's culinary identity. Austin Bush The Festas do Espírito Santo revolve around community houses called impérios (Credit: Austin Bush)Austin Bush The Festas do Espírito Santo revolve around community houses called impérios (Credit: Austin Bush) "People eat alcatra year round, but especially during the celebrations in spring and summer," explains Duarte Fournier. He is the Grand Master of the Brotherhood of Alcatra, a culinary fraternity on Terceira, and is telling me about the island's signature dish: cuts of beef braised in local wine, smoked pork fat and dried spices, resulting in something of a heartier, spicier, richer version of France's famed boeuf bourguignon. We're sitting at a cafe in Angra do Heroísmo, Terceira's largest city, and as we chat, children race to and from a nearby império delivering massive trays of raw beef to neighbours. Fournier tells me that alcatra likely has its origins in northern Portugal, where there's a tradition of baking goat in wine. "We don't know why it's called alcatra," he says. "We suppose it's from Arabic. Al catar means 'small pieces of meat'." According to Fournier, alcatra differs from mainland Portugal's baked meat dishes in that it includes dried spices, generally allspice and black peppercorns, but also sometimes clove or cinnamon.""",
"""Semelhante ao boeuf bourguignon mais vigoroso, picante e rico da França, "alcatra" é sinônimo de uma única ilha no remoto arquipélago dos Açores. Os Açores, um arquipélago de nove ilhas pertencentes a Portugal e localizado aproximadamente entre a Europa e os EUA, são um país de vacas. Diz-se que abrigam mais gado do que pessoas e, apesar de abrigarem menos de 3% da população de Portugal, as ilhas produzem 30% dos produtos lácteos de Portugal e 13% da sua carne bovina. A carne bovina faz parte do quotidiano dos Açores e, quando chega a primavera numa determinada ilha, o ingrediente cruza até com a religião. Nos dias seguintes à Páscoa, os açorianos dão início a uma série de celebrações religiosas denominadas Festas do Espírito Santo. Durante o século 13, uma seita católica chamada Culto do Espírito Santo previu uma era utópica na Terra. Esta fé marginal foi desencorajada na Europa continental, mas sobreviveu nestas ilhas remotas no meio do Oceano Atlântico. A seita também foi promovida pela rainha portuguesa Isabel de Aragão (também conhecida como Isabel de Portugal), que era conhecida pela sua caridade. Ao longo dos séculos seguintes, surgiu nos Açores uma série de festivais que misturavam estas aspirações utópicas com a alegada generosidade da rainha. Entre a Páscoa e a semana seguinte ao Domingo de Pentecostes, num total de oito semanas, as ilhas acolhem uma série de desfiles e outros festivais culturais e religiosos que giram em torno de casas comunitárias de cores vivas chamadas impérios. Durante esse período, as casas comunitárias também arrecadam doações dos moradores, que depois são redistribuídas às pessoas na forma de pão, carne e vinho. Estes três elementos juntam-se geralmente na forma de uma sopa, chamada sopa do Espírito Santo, que é servida nos impérios durante as festas. Mas na ilha Terceira os cariocas combinam estes ingredientes de uma forma diferente e deliciosa, que se tornou sinónimo da identidade culinária da ilha. Austin Bush As Festas do Espírito Santo giram em torno de casas comunitárias chamadas impérios (Crédito: Austin Bush)Austin Bush As Festas do Espírito Santo giram em torno de casas comunitárias chamadas impérios (Crédito: Austin Bush) "As pessoas comem alcatra o ano todo, mas principalmente durante as comemorações na primavera e no verão", explica Duarte Fournier. Ele é o Grão-Mestre da Irmandade de Alcatra, uma fraternidade culinária da Terceira, e está me contando sobre o prato característico da ilha: cortes de carne refogados no vinho local, gordura de porco defumada e especiarias secas, resultando em um prato mais forte e picante. , versão mais rica do famoso boeuf bourguignon da França. Estamos sentados num café em Angra do Heroísmo, a maior cidade da Terceira, e enquanto conversamos, crianças correm de e para um império próximo, entregando enormes bandejas de carne crua aos vizinhos. Fournier disse-me que a alcatra provavelmente tem a sua origem no norte de Portugal, onde existe uma tradição de assar cabra no vinho. “Não sabemos por que se chama alcatra”, diz ele. "Supomos que seja do árabe. Al catar significa 'pequenos pedaços de carne'." Segundo Fournier, a alcatra difere dos pratos de carne assada de Portugal continental por incluir especiarias secas, geralmente pimenta da Jamaica e pimenta preta, mas por vezes também cravo ou canela."""
]
gradio_examples = [ [text] for text in gradio_examples ]
gradio_title = "Semantic Compression [ English / Portuguese ]"
gradio_description = "Provide a text and the system will compress it, trying to preserve the original meaning. The system uses semantic embeddings to compress the text. The word reduction factor controls how much the text will be compressed. The higher the value, the more compressed the text will be."
reduction_factor = gr.Slider(
minimum=0.1,
maximum=0.9,
value=0.5,
step=0.05,
interactive=True,
label="Reduction Factor"
)
# Create the gradio interface
gr.Interface(
fn=predict,
inputs=[gr.Textbox(lines=10, label="Input Text"), reduction_factor],
outputs=[gr.Textbox(label="Compressed Text")],
title=gradio_title,
description=gradio_description,
examples=gradio_examples,
allow_flagging="never"
).launch() |