Spaces:

reddgr
/

procesador-de-cvs-gradio-app

Sleeping

App Files Files Community

procesador-de-cvs-gradio-app / src /procesador_de_cvs_con_llm.py

reddgr

Upload 8 files

f9f7ae4 verified 2 months ago

raw

history blame

15.3 kB


	import os
	import pandas as pd
	import json
	import textwrap
	from scipy import spatial
	from datetime import datetime
	from openai import OpenAI

	class ProcesadorCV:

	def __init__(self, api_key, cv_text, job_text, ner_pre_prompt, system_prompt, user_prompt, ner_schema, response_schema,
	inference_model="gpt-4o-mini", embeddings_model="text-embedding-3-small"):
	"""
	Inicializa una instancia de la clase con los parámetros proporcionados.

	Args:
	api_key (str): La clave de API para autenticar con el cliente OpenAI.
	cv_text (str): contenido del CV en formato de texto.
	job_text (str): título de la oferta de trabajo a evaluar.
	ner_pre_prompt (str): instrucción de "reconocimiento de entidades nombradas" (NER) para el modelo en lenguaje natural.
	system_prompt (str): instrucción en lenguaje natural para la salida estructurada final.
	user_prompt (str): instrucción con los parámetros y datos calculados en el preprocesamiento.
	ner_schema (dict): esquema para la llamada con "structured outputs" al modelo de OpenAI para NER.
	response_schema (dict): esquema para la respuesta final de la aplicación.
	inference_model (str, opcional): El modelo de inferencia a utilizar. Por defecto es "gpt-4o-mini".
	embeddings_model (str, opcional): El modelo de embeddings a utilizar. Por defecto es "text-embedding-3-small".

	Atributos:
	inference_model (str): Almacena el modelo de inferencia seleccionado.
	embeddings_model (str): Almacena el modelo de embeddings seleccionado.
	client (OpenAI): Instancia del cliente OpenAI inicializada con la clave de API proporcionada.
	cv (str): Almacena el texto del currículum vitae proporcionado.

	"""
	self.inference_model = inference_model
	self.embeddings_model = embeddings_model
	self.ner_pre_prompt = ner_pre_prompt
	self.user_prompt = user_prompt
	self.system_prompt = system_prompt
	self.ner_schema = ner_schema
	self.response_schema = response_schema
	self.client = OpenAI(api_key=api_key)
	self.cv = cv_text
	self.job_text = job_text
	print("Cliente inicializado como",self.client)

	def extraer_datos_cv(self, temperature=0.5):
	"""
	Extrae datos estructurados de un CV con OpenAI API.
	Args:
	pre_prompt (str): instrucción para el modelo en lenguaje natural.
	schema (dict): esquema de los parámetros que se espera extraer del CV.
	temperature (float, optional): valor de temperatura para el modelo de lenguaje. Por defecto es 0.5.
	Returns:
	pd.DataFrame: DataFrame con los datos estructurados extraídos del CV.
	Raises:
	ValueError: si no se pueden extraer datos estructurados del CV.
	"""
	response = self.client.chat.completions.create(
	model=self.inference_model,
	temperature=temperature,
	messages=[
	{"role": "system", "content": self.ner_pre_prompt},
	{"role": "user", "content": self.cv}
	],
	functions=[
	{
	"name": "extraer_datos_cv",
	"description": "Extrae tabla con títulos de puesto de trabajo, nombres de empresa y períodos de un CV.",
	"parameters": self.ner_schema
	}
	],
	function_call="auto"
	)

	if response.choices[0].message.function_call:
	function_call = response.choices[0].message.function_call
	structured_output = json.loads(function_call.arguments)
	if structured_output.get("experiencia"):
	df_cv = pd.DataFrame(structured_output["experiencia"])
	return df_cv
	else:
	raise ValueError(f"No se han podido extraer datos estructurados: {response.choices[0].message.content}")
	else:
	raise ValueError(f"No se han podido extraer datos estructurados: {response.choices[0].message.content}")


	def procesar_periodos(self, df):
	"""
	Procesa los períodos en un DataFrame y añade columnas con las fechas de inicio, fin y duración en meses.
	Si no hay fecha de fin, se considera la fecha actual.
	Args:
	df (pandas.DataFrame): DataFrame que contiene una columna 'periodo' con períodos en formato 'YYYYMM-YYYYMM' o 'YYYYMM'.
	Returns:
	pandas.DataFrame: DataFrame con columnas adicionales 'fec_inicio', 'fec_final' y 'duracion'.
	- 'fec_inicio' (datetime.date): Fecha de inicio del período.
	- 'fec_final' (datetime.date): Fecha de fin del período.
	- 'duracion' (int): Duración del período en meses.
	"""
	# Función lambda para procesar el período
	def split_periodo(periodo):
	dates = periodo.split('-')
	start_date = datetime.strptime(dates[0], "%Y%m")
	if len(dates) > 1:
	end_date = datetime.strptime(dates[1], "%Y%m")
	else:
	end_date = datetime.now()
	return start_date, end_date

	df[['fec_inicio', 'fec_final']] = df['periodo'].apply(lambda x: pd.Series(split_periodo(x)))

	# Formateamos las fechas para mostrar mes, año, y el primer día del mes (dado que el día es irrelevante y no se suele especificar)
	df['fec_inicio'] = df['fec_inicio'].dt.date
	df['fec_final'] = df['fec_final'].dt.date

	# Añadimos una columna con la duración en meses
	df['duracion'] = df.apply(
	lambda row: (row['fec_final'].year - row['fec_inicio'].year) * 12 +
	row['fec_final'].month - row['fec_inicio'].month,
	axis=1
	)

	return df


	def calcular_embeddings(self, df, column='puesto', model_name='text-embedding-3-small'):
	"""
	Calcula los embeddings de una columna de un dataframe con OpenAI API.
	Args:
	cv_df (pandas.DataFrame): DataFrame con los datos de los CV.
	column (str, optional): Nombre de la columna que contiene los datos a convertir en embeddings. Por defecto es 'puesto'.
	model_name (str, optional): Nombre del modelo de embeddings. Por defecto es 'text-embedding-3-small'.
	"""
	df['embeddings'] = df[column].apply(
	lambda puesto: self.client.embeddings.create(
	input=puesto,
	model=model_name
	).data[0].embedding
	)
	return df


	def calcular_distancias(self, df, column='embeddings', model_name='text-embedding-3-small'):
	"""
	Calcula la distancia coseno entre los embeddings del texto y los incluidos en una columna del dataframe.
	Params:
	df (pandas.DataFrame): DataFrame que contiene los embeddings.
	column (str, optional): nombre de la columna del DataFrame que contiene los embeddings. Por defecto, 'embeddings'.
	model_name (str, optional): modelo de embeddings de la API de OpenAI. Por defecto "text-embedding-3-small".
	Returns:
	pandas.DataFrame: DataFrame ordenado de menor a mayor distancia, con las distancias en una nueva columna.
	"""
	response = self.client.embeddings.create(
	input=self.job_text,
	model=model_name
	)
	emb_compare = response.data[0].embedding

	df['distancia'] = df[column].apply(lambda emb: spatial.distance.cosine(emb, emb_compare))
	df.drop(columns=[column], inplace=True)
	df.sort_values(by='distancia', ascending=True, inplace=True)
	return df


	def calcular_puntuacion(self, df, req_experience, positions_cap=4, dist_threshold_low=0.6, dist_threshold_high=0.7):
	"""
	Calcula la puntuación de un CV a partir de su tabla de distancias (con respecto a un puesto dado) y duraciones.

	Params:
	df (pandas.DataFrame): datos de un CV incluyendo diferentes experiencias incluyendo duracies y distancia previamente calculadas sobre los embeddings de un puesto de trabajo
	req_experience (float): experiencia requerida en meses para el puesto de trabajo (valor de referencia para calcular una puntuación entre 0 y 100 en base a diferentes experiencias)
	positions_cap (int, optional): Maximum number of positions to consider for scoring. Defaults to 4.
	dist_threshold_low (float, optional): Distancia entre embeddings a partir de la cual el puesto del CV se considera "equivalente" al de la oferta.
	max_dist_threshold (float, optional): Distancia entre embeddings a partir de la cual el puesto del CV no puntúa.

	Returns:
	pandas.DataFrame: DataFrame original añadiendo una columna con las puntuaciones individuales contribuidas por cada puesto.
	float: Puntuación total entre 0 y 100.
	"""
	# A efectos de puntuación, computamos para cada puesto como máximo el número total de meses de experiencia requeridos
	df['duration_capped'] = df['duracion'].apply(lambda x: min(x, req_experience))
	# Normalizamos la distancia entre 0 y 1, siendo 0 la distancia mínima y 1 la máxima
	df['adjusted_distance'] = df['distancia'].apply(
	lambda x: 0 if x <= dist_threshold_low else (
	1 if x >= dist_threshold_high else (x - dist_threshold_low) / (dist_threshold_high - dist_threshold_low)
	)
	)
	# Cada puesto puntúa en base a su duración y a la inversa de la distancia (a menor distancia, mayor puntuación)
	df['position_score'] = round(((1 - df['adjusted_distance']) * (df['duration_capped']/req_experience) * 100), 2)
	# Descartamos puestos con distancia superior al umbral definido (asignamos puntuación 0), y ordenamos por puntuación
	df.loc[df['distancia'] >= dist_threshold_high, 'position_score'] = 0
	df = df.sort_values(by='position_score', ascending=False)
	# Nos quedamos con los puestos con mayor puntuación (positions_cap)
	df.iloc[positions_cap:, df.columns.get_loc('position_score')] = 0
	# Totalizamos (no debería superar 100 nunca, pero ponemos un límite para asegurar) y redondeamos a dos decimales
	total_score = round(min(df['position_score'].sum(), 100), 2)
	return df, total_score

	def filtra_experiencia_relevante(self, df):
	"""
	Filtra las experiencias relevantes del dataframe y las devuelve en formato diccionario.
	Args:
	df (pandas.DataFrame): DataFrame con la información completa de experiencia.
	Returns:
	dict: Diccionario con las experiencias relevantes.
	"""
	df_experiencia = df[df['position_score'] > 0].copy()
	df_experiencia.drop(columns=['periodo', 'fec_inicio', 'fec_final',
	'distancia', 'duration_capped', 'adjusted_distance'], inplace=True)
	experiencia_dict = df_experiencia.to_dict(orient='list')
	return experiencia_dict

	def llamada_final(self, req_experience, puntuacion, dict_experiencia):
	"""
	Realiza la llamada final al modelo de lenguaje para generar la respuesta final.
	Args:
	req_experience (int): Experiencia requerida en meses para el puesto de trabajo.
	puntuacion (float): Puntuación total del CV.
	dict_experiencia (dict): Diccionario con las experiencias relevantes.
	Returns:
	dict: Diccionario con la respuesta final.
	"""
	messages = [
	{
	"role": "system",
	"content": self.system_prompt
	},
	{
	"role": "user",
	"content": self.user_prompt.format(job=self.job_text, req_experience=req_experience,puntuacion=puntuacion, exp=dict_experiencia)
	}
	]

	functions = [
	{
	"name": "respuesta_formateada",
	"description": "Devuelve el objeto con puntuacion, experiencia y descripcion de la experiencia",
	"parameters": self.response_schema
	}
	]

	response = self.client.chat.completions.create(
	model=self.inference_model,
	temperature=0.5,
	messages=messages,
	functions=functions,
	function_call={"name": "respuesta_formateada"}
	)

	if response.choices[0].message.function_call:
	function_call = response.choices[0].message.function_call
	structured_output = json.loads(function_call.arguments)
	print("Respuesta:\n", json.dumps(structured_output, indent=4, ensure_ascii=False))
	wrapped_description = textwrap.fill(structured_output['descripcion de la experiencia'], width=120)
	print(f"Descripción de la experiencia:\n{wrapped_description}")
	return structured_output
	else:
	raise ValueError(f"Error. No se ha podido generar respuesta:\n {response.choices[0].message.content}")

	def procesar_cv_completo(self, req_experience, positions_cap, dist_threshold_low, dist_threshold_high):
	"""
	Procesa un CV y calcula la puntuación final.
	Args:
	req_experience (int, optional): Experiencia requerida en meses para el puesto de trabajo.
	positions_cap (int, optional): Número máximo de puestos a considerar para la puntuación.
	dist_threshold_low (float, optional): Distancia límite para considerar un puesto equivalente.
	dist_threshold_high (float, optional): Distancia límite para considerar un puesto no relevante.
	Returns:
	pd.DataFrame: DataFrame con las puntuaciones individuales contribuidas por cada puesto.
	float: Puntuación total entre 0 y 100.
	"""
	df_datos_estructurados_cv = self.extraer_datos_cv()
	df_datos_estructurados_cv = self.procesar_periodos(df_datos_estructurados_cv)
	df_con_embeddings = self.calcular_embeddings(df_datos_estructurados_cv)
	df_con_distancias = self.calcular_distancias(df_con_embeddings)
	df_puntuaciones, puntuacion = self.calcular_puntuacion(df_con_distancias,
	req_experience=req_experience,
	positions_cap=positions_cap,
	dist_threshold_low=dist_threshold_low,
	dist_threshold_high=dist_threshold_high)
	dict_experiencia = self.filtra_experiencia_relevante(df_puntuaciones)
	dict_respuesta = self.llamada_final(req_experience, puntuacion, dict_experiencia)
	return dict_respuesta