Spaces:

m42-health
/

MEDIC-Benchmark

Runtime error

App Files Files Community

MEDIC-Benchmark / src /leaderboard /read_evals.py

tathagataraha

[MODIFY] Submission viewing

46f69ad 25 days ago

raw

history blame contribute delete

17.1 kB

	import glob
	import json
	import math
	import os
	from dataclasses import dataclass

	import dateutil
	import numpy as np

	from src.display.formatting import make_clickable_model
	# changes to be made here
	from src.display.utils import AutoEvalColumn, ModelType, ModelArch, Precision, HarnessTasks, WeightType, OpenEndedColumns, MedSafetyColumns, MedicalSummarizationColumns, ACIColumns, SOAPColumns
	from src.submission.check_validity import is_model_on_hub


	@dataclass
	class EvalResult:
	"""Represents one full evaluation. Built from a combination of the result and request file for a given run."""

	eval_name: str # org_model_precision (uid)
	full_model: str # org/model (path on hub)
	org: str
	model: str
	revision: str # commit hash, "" if main
	dataset_results: dict
	# changes to be made here
	open_ended_results: dict
	med_safety_results: dict
	medical_summarization_results: dict
	aci_results: dict
	soap_results: dict
	is_domain_specific: bool
	use_chat_template: bool
	# clinical_type_results:dict
	precision: Precision = Precision.Unknown
	model_type: ModelType = ModelType.Unknown # Pretrained, fine tuned, ...
	weight_type: WeightType = WeightType.Original # Original or Adapter
	backbone:str = "Unknown"
	license: str = "?"
	likes: int = 0
	num_params: int = 0
	date: str = "" # submission date of request file
	still_on_hub: bool = False
	display_result:bool = True

	@classmethod
	def init_from_json_file(self, json_filepath, evaluation_metric):
	"""Inits the result from the specific model result file"""
	with open(json_filepath) as fp:
	try:
	data = json.load(fp)
	except:
	breakpoint()


	config = data.get("config")

	# Precision
	precision = Precision.from_str(config.get("model_dtype"))
	model_type = ModelType.from_str(config.get("model_type", ""))
	license = config.get("license", "?")
	num_params = config.get("num_params", "?")
	display_result = config.get("display_result", True)
	display_result = False if display_result=="False" else True

	# Get model and org
	org_and_model = config.get("model_name", config.get("model_args", None))
	org_and_model = org_and_model.split("/", 1)

	if len(org_and_model) == 1:
	org = None
	model = org_and_model[0]
	result_key = f"{model}_{precision.value.name}"
	else:
	org = org_and_model[0]
	model = org_and_model[1]
	result_key = f"{org}_{model}_{precision.value.name}"
	full_model = "/".join(org_and_model)

	still_on_hub, _, model_config = is_model_on_hub(
	full_model, config.get("revision", "main"), trust_remote_code=True, test_tokenizer=False
	)
	backbone = "?"
	if model_config is not None:
	backbones = getattr(model_config, "architectures", None)
	if backbones:
	backbone = ";".join(backbones)

	# Extract results available in this file (some results are split in several files)
	harness_results = {}
	if "closed-ended" in data["results"]:
	for task in HarnessTasks:
	task = task.value
	# We average all scores of a given metric (not all metrics are present in all files)
	try:
	accs = np.array([v.get(task.metric, None) for k, v in data["results"]["closed-ended"].items() if task.benchmark == k])
	except:
	# breakpoint()
	accs = np.array([])
	if accs.size == 0 or any([acc is None for acc in accs]):
	continue
	mean_acc = np.mean(accs) # * 100.0
	harness_results[task.benchmark] = mean_acc
	open_ended_results = {}
	if "open-ended" in data["results"]:
	for task in OpenEndedColumns:
	task = task.value
	# We average all scores of a given metric (not all metrics are present in all files)
	accs = data["results"]["open-ended"]["overall"][task.benchmark] if task.benchmark in data["results"]["open-ended"]["overall"] else None
	open_ended_results[task.benchmark] = accs
	if open_ended_results["ELO_intervals"] is not None and open_ended_results["Score_intervals"] is not None:
	open_ended_results["ELO_intervals"] = "+" + str(open_ended_results["ELO_intervals"][1]) + "/-" + str(abs(open_ended_results["ELO_intervals"][0]))
	open_ended_results["Score_intervals"] = "+" + str(open_ended_results["Score_intervals"][1]) + "/-" + str(abs(open_ended_results["Score_intervals"][0]))
	# breakpoint()
	# changes to be made here
	med_safety_results = {}
	if "med-safety" in data["results"]:
	for task in MedSafetyColumns:
	task = task.value
	if task.benchmark == "Harmfulness Score":
	accs = data["results"]["med-safety"][task.benchmark]
	med_safety_results[task.benchmark] = accs
	elif task.benchmark == "95% CI":
	accs = data["results"]["med-safety"][task.benchmark]
	med_safety_results[task.benchmark] = "+" + str(round(accs[1], 3)) + "/-" + str(round(abs(accs[0]), 3))
	else:
	accs = data["results"]["med-safety"][task.benchmark]["score"]
	med_safety_results[task.benchmark] = accs
	medical_summarization_results = {}
	if "medical-summarization" in data["results"]:
	for task in MedicalSummarizationColumns:
	task = task.value
	try:
	accs = np.array([v for k, v in data["results"]["medical-summarization"]["clinical_trial"].items() if task.benchmark == k])
	except:
	accs = np.array([])
	if accs.size == 0 or any([acc is None for acc in accs]):
	continue
	mean_acc = np.mean(accs) # * 100.0
	medical_summarization_results[task.benchmark] = mean_acc
	aci_results = {}
	if "note-generation" in data["results"] and "aci" in data["results"]["note-generation"]:
	for task in ACIColumns:
	task = task.value
	try:
	accs = np.array([v for k, v in data["results"]["note-generation"]["aci"].items() if task.benchmark == k])
	except:
	accs = np.array([])
	if accs.size == 0 or any([acc is None for acc in accs]):
	continue
	mean_acc = np.mean(accs) # * 100.0
	aci_results[task.benchmark] = mean_acc
	soap_results = {}
	if "note-generation" in data["results"] and "soap" in data["results"]["note-generation"]:
	for task in SOAPColumns:
	task = task.value
	try:
	accs = np.array([v for k, v in data["results"]["note-generation"]["soap"].items() if task.benchmark == k])
	except:
	accs = np.array([])
	if accs.size == 0 or any([acc is None for acc in accs]):
	continue
	mean_acc = np.mean(accs) # * 100.0
	soap_results[task.benchmark] = mean_acc
	if open_ended_results == {} or med_safety_results == {} or medical_summarization_results == {} or aci_results == {} or soap_results == {}:
	open_ended_results = {}
	med_safety_results = {}
	medical_summarization_results = {}
	aci_results = {}
	soap_results = {}
	# types_results = {}
	# for clinical_type in ClinicalTypes:
	# clinical_type = clinical_type.value

	# # We average all scores of a given metric (not all metrics are present in all files)
	# accs = np.array([v.get(clinical_type.metric, None) for k, v in data[evaluation_metric]["clinical_type_results"].items() if clinical_type.benchmark == k])
	# if accs.size == 0 or any([acc is None for acc in accs]):
	# continue

	# mean_acc = np.mean(accs) # * 100.0
	# types_results[clinical_type.benchmark] = mean_acc

	return self(
	eval_name=result_key,
	full_model=full_model,
	org=org,
	model=model,
	revision=config.get("revision", ""),
	dataset_results=harness_results,
	open_ended_results=open_ended_results,
	med_safety_results=med_safety_results,
	medical_summarization_results=medical_summarization_results,
	aci_results=aci_results,
	soap_results=soap_results,
	is_domain_specific=config.get("is_domain_specific", False), # Assuming a default value
	use_chat_template=config.get("use_chat_template", False), # Assuming a default value
	precision=precision,
	model_type=model_type,
	weight_type=WeightType.from_str(config.get("weight_type", "")), # Assuming the default value
	backbone=backbone,
	license=license,
	likes=config.get("likes", 0), # Assuming a default value
	num_params=num_params,
	still_on_hub=still_on_hub,
	display_result=display_result,
	date=config.get("submitted_time","")
	)

	def update_with_request_file(self, requests_path):
	"""Finds the relevant request file for the current model and updates info with it"""
	request_file = get_request_file_for_model(requests_path, self.full_model, self.precision.value.name)

	try:
	with open(request_file, "r") as f:
	request = json.load(f)
	self.model_type = ModelType.from_str(request.get("model_type", ""))
	self.weight_type = WeightType[request.get("weight_type", "Original")]
	self.license = request.get("license", "?")
	self.likes = request.get("likes", 0)
	self.num_params = request.get("params", 0)
	self.date = request.get("submitted_time", "")
	# self.precision = request.get("precision", "float32")
	except Exception:
	pass
	# print(
	# f"Could not find request file for {self.org}/{self.model} with precision {self.precision.value.name}"
	# )
	# print(f" Args used were - {request_file=}, {requests_path=}, {self.full_model=},")

	def to_dict(self, subset):
	"""Converts the Eval Result to a dict compatible with our dataframe display"""
	data_dict = {
	"eval_name": self.eval_name, # not a column, just a save name,
	AutoEvalColumn.precision.name: self.precision.value.name,
	AutoEvalColumn.model_type.name: self.model_type.value.name,
	AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol + (" 🏥" if self.is_domain_specific else ""),
	AutoEvalColumn.weight_type.name: self.weight_type.value.name,
	# AutoEvalColumn.architecture.name: self.architecture.value.name,
	# AutoEvalColumn.backbone.name: self.backbone,
	AutoEvalColumn.model.name: make_clickable_model(self.full_model),
	AutoEvalColumn.is_domain_specific.name: self.is_domain_specific,
	AutoEvalColumn.use_chat_template.name: self.use_chat_template,
	AutoEvalColumn.revision.name: self.revision,
	AutoEvalColumn.license.name: self.license,
	AutoEvalColumn.likes.name: self.likes,
	AutoEvalColumn.params.name: self.num_params,
	AutoEvalColumn.still_on_hub.name: self.still_on_hub,
	AutoEvalColumn.date.name: self.date,
	"display_result" : self.display_result,
	}

	if subset == "datasets":
	average = sum([v for v in self.dataset_results.values() if v is not None]) / len(HarnessTasks)
	data_dict[AutoEvalColumn.average.name] = average
	if len(self.dataset_results) > 0:
	for task in HarnessTasks:
	data_dict[task.value.col_name] = self.dataset_results[task.value.benchmark]
	return data_dict

	if subset == "open_ended":
	if len(self.open_ended_results) > 0:
	for task in OpenEndedColumns:
	data_dict[task.value.col_name] = self.open_ended_results[task.value.benchmark]
	return data_dict
	# changes to be made here
	if subset == "med_safety":
	if len(self.med_safety_results) > 0:
	for task in MedSafetyColumns:
	data_dict[task.value.col_name] = self.med_safety_results[task.value.benchmark]
	return data_dict
	if subset == "medical_summarization":
	if len(self.medical_summarization_results) > 0:
	adjusted_conciseness = max(0, self.medical_summarization_results["brief"])
	coverage = self.medical_summarization_results["coverage"]
	hm = 2 / (1/coverage + 1/adjusted_conciseness) if not (adjusted_conciseness == 0 or coverage == 0) else 0
	conformity = self.medical_summarization_results["conform"]
	consistency = self.medical_summarization_results["fact"]
	overall = sum([hm, conformity, consistency]) / 3
	data_dict[AutoEvalColumn.overall.name] = overall
	for task in MedicalSummarizationColumns:
	data_dict[task.value.col_name] = self.medical_summarization_results[task.value.benchmark]
	return data_dict
	if subset == "aci":
	overall = sum([v for v in self.aci_results.values() if v is not None]) / len(ACIColumns)
	data_dict[AutoEvalColumn.overall.name] = overall
	if len(self.aci_results) > 0:
	for task in ACIColumns:
	data_dict[task.value.col_name] = self.aci_results[task.value.benchmark]
	return data_dict
	if subset == "soap":
	overall = sum([v for v in self.soap_results.values() if v is not None]) / len(SOAPColumns)
	data_dict[AutoEvalColumn.overall.name] = overall
	if len(self.soap_results) > 0:
	for task in SOAPColumns:
	data_dict[task.value.col_name] = self.soap_results[task.value.benchmark]
	return data_dict


	def get_request_file_for_model(requests_path, model_name, precision):
	"""Selects the correct request file for a given model. Only keeps runs tagged as FINISHED"""
	request_files = os.path.join(
	requests_path,
	f"{model_name}_eval_request_*.json",
	)
	request_files = glob.glob(request_files)

	# Select correct request file (precision)
	request_file = ""
	request_files = sorted(request_files, reverse=True)
	for tmp_request_file in request_files:
	with open(tmp_request_file, "r") as f:
	req_content = json.load(f)
	if req_content["status"] in ["FINISHED"] and req_content["precision"] == precision.split(".")[-1]:
	request_file = tmp_request_file
	return request_file


	def get_raw_eval_results(results_path: str, requests_path: str, evaluation_metric: str) -> list[EvalResult]:
	"""From the path of the results folder root, extract all needed info for results"""
	model_result_filepaths = []

	for root, _, files in os.walk(results_path):
	# We should only have json files in model results
	if len(files) == 0 or any([not f.endswith(".json") for f in files]):
	continue

	# Sort the files by date
	try:
	files.sort(key=lambda x: x.removesuffix(".json").removeprefix("results_")[:-7])
	except dateutil.parser._parser.ParserError:
	files = [files[-1]]

	for file in files:
	model_result_filepaths.append(os.path.join(root, file))

	eval_results = {}
	for model_result_filepath in model_result_filepaths:
	# Creation of result
	eval_result = EvalResult.init_from_json_file(model_result_filepath, evaluation_metric)
	# eval_result.update_with_request_file(requests_path)

	# Store results of same eval together
	eval_name = eval_result.eval_name
	# if eval_name in eval_results.keys():
	# eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
	# else:
	eval_results[eval_name] = eval_result

	results = []
	# clinical_type_results = []
	for v in eval_results.values():
	try:
	v.to_dict(subset="dataset") # we test if the dict version is complete
	if not v.display_result:
	continue
	results.append(v)
	except KeyError: # not all eval values present
	continue
	# breakpoint()
	return results