{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "private_outputs": true, "provenance": [] }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "markdown", "source": [ "# 유사한 문서 검색: SBERT, FAISS 활용" ], "metadata": { "id": "AnAXz868UOUf" } }, { "cell_type": "markdown", "source": [ "### SBERT:\n", "- BERT를 기본 모델로 사용하지만, 문장 임베딩 생성을 위해 최적화\n", "- Mean Pooling 벡터 사용: 분류기 개발용 BERT 활용에서는 CLS(Classification) 토큰 벡터 사용\n", "- 유사성 측정에 적합: 코사인 유사도(cosine similarity)나 유클리드 거리(Euclidean distance) 등을 사용\n", "\n", "### FAISS(Facebook AI Similarity Search)\n", "- 대규모 벡터 검색 및 클러스터링을 위한 라이브러리. 주로 고차원 벡터의 빠른 유사성 검색을 수행" ], "metadata": { "id": "PUQ1irpLwCrw" } }, { "cell_type": "code", "source": [ "!pip install faiss-gpu\n", "!pip install transformers\n", "!pip install sentence-transformers\n" ], "metadata": { "id": "0XJvL3bbOYi8" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "## 검색1: 전체 데이터에서 거리 가까운 문장 사례 찾기(유클리드거리, L2)" ], "metadata": { "id": "gkuuQhc854ib" } }, { "cell_type": "code", "source": [ "import numpy as np\n", "import faiss\n", "import pickle\n", "from sentence_transformers import SentenceTransformer\n", "import pandas as pd\n", "\n", "# 검색 대상 DataFrame 로드\n", "df = pd.read_excel('직장괴롭힘_071424.xlsx') #\n", "df.info()\n", "\n", "# SentenceTransformer 모델 로드\n", "model = SentenceTransformer('bongsoo/kpf-sbert-v1') # 768차원\n", "\n", "# 문장 임베딩\n", "embeddings = model.encode(df['사례'].tolist())\n", "embeddings.shape\n", "\n", "# (필요하면) embeddings 저장\n", "with open('embeddings_직장괴롭힘071424_kpfsbert.pkl', 'wb') as f:\n", " pickle.dump(embeddings, f)\n", "\n", "# (필요하면) embeddings 불러오기\n", "with open('embeddings_직장괴롭힘071424_kpfsbert.pkl', 'rb') as f:\n", " embeddings = pickle.load(f)\n", "\n", "# FAISS 인덱스 생성\n", "index = faiss.IndexFlatL2(embeddings.shape[1])\n", "index.add(embeddings)\n", "\n", "# 찾고자 하는 문장\n", "query_sentence = '''회사 과장님이 따로 불러서 \"일을 못한다\"며 야단치고 욕설을 했어요. '''\n", "\n", "# 찾고자 하는 문장의 임베딩\n", "query_embedding = model.encode([query_sentence])\n", "\n", "# 유사도 검색\n", "k = 5 # 상위 10개 문장\n", "distances, indices = index.search(query_embedding, k)\n", "\n", "# 유사한 문장을 데이터프레임으로 출력\n", "df_result=df[df['id'].isin(indices[0].tolist())]\n", "df_result['거리']=distances[0].tolist()\n", "df_result = df_result.sort_values(by='거리')\n", "print(df_result)\n" ], "metadata": { "id": "iUJOilG8P1el" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "## 검색2: 전체 데이터에서 거리 가까운 문장 사례 찾기(코사인유사도)" ], "metadata": { "id": "EX46NJbGRbda" } }, { "cell_type": "markdown", "source": [ "\n", "\n", "![image.png]()\n", "\n", "코사인 유사도의 값은 -1에서 1 사이에 위치(1에 가까울수록 유사하고, -1에 가까울수록 다름)" ], "metadata": { "id": "8erIjqhm0LZg" } }, { "cell_type": "code", "source": [ "import numpy as np\n", "import faiss\n", "import pickle\n", "from sentence_transformers import SentenceTransformer\n", "import pandas as pd\n", "\n", "# 검색 대상 DataFrame 로드\n", "df = pd.read_excel('직장괴롭힘_071424.xlsx')\n", "df.info()\n", "\n", "# SentenceTransformer 모델 로드\n", "model = SentenceTransformer('bongsoo/kpf-sbert-v1') # 768차원\n", "\n", "# 문장 임베딩\n", "embeddings = model.encode(df['사례'].tolist())\n", "\n", "# 코사인 유사도 계산을 위한 임베딩 정규화(normalization): L2 정규화된 벡터의 코사인 유사도 = 두 정규화된 벡터 간의 내적\n", "embeddings_norm = embeddings / np.linalg.norm(embeddings, axis=1, keepdims=True)\n", "embeddings_norm.shape\n", "\n", "# (필요하면) embeddings 저장\n", "with open('embeddingsNorm_직장괴롭힘071424_kpfsbert.pkl', 'wb') as f:\n", " pickle.dump(embeddings_norm, f)\n", "\n", "# (필요하면) embeddings 불러오기\n", "with open('embeddingsNorm_직장괴롭힘071424_kpfsbert.pkl', 'rb') as f:\n", " embeddings_norm = pickle.load(f)\n", "\n", "# FAISS index 생성: 내적(inner product)으로 검색 목적\n", "d = embeddings_norm.shape[1] # 임베딩의 차원 수를 저장: embeddings_norm은 (문장 수, 차원 수) 형태의 2차원 배열이므로, shape[1]은 임베딩의 차원 수를 나타냄\n", "index = faiss.IndexFlatIP(d) # 내적(IP, Inner Product) 검색을 위한 FAISS 인덱스 생성. IndexFlatIP는 내적 기반의 유사도 검색을 위한 인덱스를 의미\n", "index.add(embeddings_norm) # 정규화된 임베딩을 인덱스에 추가. 검색을 위해 미리 계산된 모든 문장 임베딩을 인덱스에 추가하여 검색이 가능하도록 함\n", "\n", "\n", "# 찾고자 하는 문장\n", "query_sentence = '''과장님이 \"일처리 잘해\"라고 야단치며 부족한 보고서 수정하라고 했다.'''\n", "query_sentence = '''과장님이 \"이것도 이해 못하냐 바보냐\"라고 욕을 하며 보고서를 던졌다.'''\n", "\n", "# 찾고자 하는 문장의 임베딩\n", "query_embedding = model.encode([query_sentence])\n", "\n", "# Normalize the query embedding\n", "query_embedding_norm = query_embedding / np.linalg.norm(query_embedding, axis=1, keepdims=True)\n", "\n", "# 유사도 검색\n", "k = 5 # 상위 5개 문장\n", "distances, indices = index.search(query_embedding_norm, k)\n", "cosine_similarities = distances[0]\n", "\n", "# 유사한 문장을 데이터프레임으로 출력\n", "df_result = df.iloc[indices[0]].copy()\n", "df_result['유사도'] = cosine_similarities\n", "# Sort the results by similarity in descending order\n", "df_result = df_result.sort_values(by='유사도', ascending=False)\n", "df_result" ], "metadata": { "id": "_CFk98LSPI0z" }, "execution_count": null, "outputs": [] } ] }