nampham1106's picture
Add new SentenceTransformer model with an onnx backend
e65bc34 verified
metadata
language:
  - vi
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:114654
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: Alibaba-NLP/gte-multilingual-base
widget:
  - source_sentence: 'query: Kế hoạch 504'
    sentences:
      - >-
        **Viêm khớp dạng thấp** cần được chữa trị sớm, toàn diện, theo dõi chặt
        chẽ. Tuy nhiên, việc điều trị thường gặp nhiều khó khăn do bệnh tiến
        triển khá nhanh, rất khó điều trị dứt điểm và thường gây ra nhiều biến
        chứng nặng nề ở các khớp xương cũng như nhiều cơ quan khác trên cơ thể:


        * Mất khả năng lao động: Hiện tượng cứng khớp dẫn đến hạn chế khả năng
        vận động, [**giảm sức đề
        kháng**](https://www.vinmec.com/vie/bai-viet/cac-vitamin-va-thuc-pham-tang-suc-de-khang-cho-tre-vi)
         thể, đau đớn kéo dài ngày càng nghiêm trọng...

        * Nguy  tàn phế: **Viêm khớp dạng thấp** lâu ngày  thể dẫn tới teo
        cơ, dính khớp, biến dạng khớp, thậm chí gây ra tàn phế.  khoảng 89%
        người bệnh gặp phải tình trạng cứng khớp, bàn tay khó cầm nắm, khó đi
        lại sau 10 năm khởi phát bệnh.

        * Tăng nguy  mắc bệnh tim mạch  xảy ra biến chứng tim mạch, đe dọa
        tử vong nếu không được theo dõi chặt chẽ.

        * Ảnh hưởng đến khả năng mang thai: Khoảng 25% phụ nữ bị **viêm khớp
        dạng thấp** gặp khó khăn trong việc thụ thai.
      - >-
        Một kế hoạch giáo dục để giúp các học sinh trường công bị khuyết tật về
        thể chất hoặc tinh thần có thể sinh hoạt trong một lớp học bình thường.
        Kế hoạch 504 được xây dựng theo Đạo luật Phục hồi năm 1973, một quy chế
        dân quyền liên bang. Những trẻ không đủ điều kiện tham gia chương trình
        giáo dục cá nhân hóa (IEP) có thể đủ điều kiện tham gia chương trình
        504, được giáo viên giám sát và phụ huynh ít tham gia hơn IEP.
      - >-
        ### 4.1 Chẩn đoán lâm sàng


        Biểu hiện đau, mỏi bắp chân giống với hội chứng thiếu máu mạn tính chi
        do [**xơ vữa động
        mạch**](https://www.vinmec.com/vie/benh/xo-vua-dong-mach-ngoai-bien-4882).


        ### 4.2 Chẩn đoán hình ảnh


        Các hình ảnh nhận được trước  sau khi làm nghiệm pháp kiễng chân, giúp
        cho chẩn đoán xác định  chẩn đoán thể bệnh


        * Siêu âm: Giúp đánh giá lưu lượng dòng chảy, vị trí  mức độ hẹp tắc,
        vữa  của động mạch, lưu lượng tuần hoàn ngoại vi. Với chẩn đoán **bẫy
        động mạch khoeo** siêu âm   thế bình thường   thế bàn chân gập về
        phía gan chân tối đa cần được thực hiện. Khi tốc độ dòng chảy ngoại vi
        bị giảm sau làm nghiệm pháp nghĩa   PAES. Kết hợp với lâm sàng (bắt
        mạch) khi bệnh nhân   thế kiễng chân để chẩn đoán chính xác hơn.

        * [**Chụp cắt lớp vi tính đa
        dãy**](https://www.vinmec.com/vie/bai-viet/tim-hieu-phuong-phap-chup-cat-lop-dien-toan-da-lat-cat-msct-vi)
        (MSCT)

        * [**Chụp cộng hưởng
        từ**](https://www.vinmec.com/vie/bai-viet/ung-dung-chup-cong-huong-tu-mri-trong-chan-doan-chan-thuong-khop-goi-vi)
        (MRI).
  - source_sentence: 'query: Triệu chứng trào ngược dạ dày thực quản ở trẻ sơ sinh'
    sentences:
      - >-
        [**Trào ngược dạ dày thực
        quản**](https://www.vinmec.com/vie/bai-viet/dung-lo-la-voi-trao-nguoc-da-day-thuc-quan-o-tre-so-sinh-vi)
        ở trẻ sơ sinh không phải là vấn đề lo ngại. Điều bất thường là dạ dày
        chứa acid gây kích thích cổ họng hoặc thực quản và gây ra cảm giác đau
        rát khó chịu cho trẻ với các dấu hiệu và triệu chứng của bệnh.


        Trong trường hợp  những triệu chứng bất thường sau, nên đưa trẻ đi
        khám bác 


        * Không tăng cân

        * Quấy khóc thường xuyên.

        * Nôn ói nhiều.

        * Dịch nôn lỏng màu xanh  cây hoặc màu vàng.

        * Chất nôn  chứa máu hoặc  các thành phần khác  màu giống  
        phê

        *  xuất hiện máu  trong phân

        * Khó thở hoặc ho mãn tính

        * Kích thích bất thường sau ăn.
      - >-
        [**Khoai
        lang**](https://www.vinmec.com/vie/bai-viet/luong-calo-trong-khoai-lang-vi)
        chứa nhiều kali, giúp cân bằng lượng điện giải trong cơ thể khi uống
        rượu. Bên cạnh đó, khoai lang còn có chứa nhiều carbs phức tạp, cơ thể
        sẽ tiêu hóa lâu hơn, giúp giảm tác động tiêu cực của rượu lên cơ thể.
        Việc ăn khoai lang giảm thiểu việc tăng đường trong máu đột biến, giảm
        cảm giác đói hay tình trạng ăn quá nhiều do uống rượu. Người dùng nên ăn
        khoai lang luộc, hấp hoặc nướng trước khi uống rượu.
      - >-
        Khó thở là loại cấp cứu nhi khoa phổ biến nhất và cũng là lý do phổ biến
        nhất khi nhập viện. Nhiều trẻ thậm chí cần phải thở oxy.


        Những năm đầu đời của trẻ  thời điểm khó thở  khả năng gây nguy hiểm
        nhất  phế quản còn nhỏ hẹp dễ bị co thắt phù nề khi xảy ra các phản
        ứng viêm tại chỗ.


        Khó thở xuất phát từ các vấn đề  cổ họng, thanh quản, khí quản hoặc
        phổi. Dưới đây  một số nguyên nhân phổ biến khiến **trẻ bị khó thở**:


        * [**Sốc phản
        vệ**](https://www.vinmec.com/vie/bai-viet/soc-phan-ve-la-gi-va-thuong-xay-ra-trong-truong-hop-nao-vi)
        (phản ứng dị ứng nghiêm trọng): Nghi ngờ khi **trẻ khó thở** đột ngột 
        [**nổi mề
        đay**](https://www.vinmec.com/vie/bai-viet/cach-chua-di-ung-noi-me-day-tai-nha-vi)
        lan rộng. Thường gặp tác nhân do ong đốt hoặc dị ứng thức ăn như đậu
        phộng.

        * Bệnh hen suyễn: Các triệu chứng của cơn hen suyễn  [**thở khò
        khè**](https://www.vinmec.com/vie/bai-viet/tre-bi-kho-khe-nhan-dien-dau-hieu-bat-thuong-vi),
        ho  khó thở.

        * [**Viêm tiểu phế
        quản**](https://www.vinmec.com/vie/bai-viet/thu-pham-gay-viem-tieu-phe-quan-o-tre-em-vi):
        Một bệnh nhiễm vi-rút  các đường dẫn khí nhỏ nhất trong phổi. Thở khò
        khè trong 2 năm đầu đời thường do viêm tiểu phế quản. Các triệu chứng
        chính  thở nhanh  thở khò khè.

        * Croup: Nhiễm vi-rút đường  hấp trên  đường  hấp dưới do virus á
        cúm tuýp 1. Các triệu chứng chính  ho khan  khàn giọng. Một số trẻ
        em bị viêm phổi nặng sẽ phát ra âm thanh gắt  căng khi thở vào. Đây
        được gọi  thở rít.

        * Dị vật đường thở: Nghi ngờ khi trẻ đột ngột ho  sặc. Thường gặp dị
        vật  lạc  các loại hạt.

        * Bệnh cúm: Các triệu chứng chính  sốt, sổ mũi, đau họng  ho nhiều.
        Virus cúm cũng  thể gây ra các biến chứng như viêm phổi. Vắc xin 
        thể ngăn ngừa bệnh.

        * Viêm phổi: Tình trạng nhiễm trùng phần phổi cung cấp oxy cho máu. Bị
        viêm phổi  thể làm giảm nồng độ oxy trong máu  gây khó thở. Nhiều
        nguyên nhân do vi khuẩn  thể được ngăn ngừa bằng vắc xin.

        * Ho gà: Nhiễm trùng đường thở do vi khuẩn. Các triệu chứng chính  ho
        kéo dài  nghẹt thở. Rất nghiêm trọng  trẻ  sinh.  thể phòng ngừa
        bằng vắc xin.

        * Bệnh **xơ nang**(CF): Một chứng rối loạn di truyền gây ra các vấn đề
        về  hấp  tiêu hóa do làm tắc nghẽn các  quan trong  thể với một
        chất nhầy đặc, dính,  khả năng đe dọa đến tính mạng trẻ. Ngoài các
        biểu hiện  hệ  hấp như **trẻ bị khó thở**, khò khè, ho, nhiễm trùng
        tái phát, viêm phổi, giãn phế quản, trẻ còn  các biểu hiện  đường
        tiêu hóa  toàn thân như tắc nghẽn ruột, đau bụng, phân  mùi bất
        thường, sụt cân,...

        * Hút thuốc thụ động: trẻ tăng nguy  gặp các vấn đề sức khỏe như: ho,
        thở khò khè, nhiễm trùng đường  hấp, hen suyễn, nhiễm trùng tai,...
  - source_sentence: 'query: Virus Ebola lây qua đường nào?'
    sentences:
      - >-
        Đột biến trong virus có thể phát hiện bằng cách giải mã trình tự bộ gen
        của virus được phân lập từ các bệnh nhân trên khắp thế giới. Các thông
        tin này sẽ giúp các nhà khoa học phát hiện các biến thể mới của virus và
        các đột biến gen nào đã xảy ra, từ đó tăng thêm hiểu biết về loại virus
        này và xác định xem liệu đột biến có làm thay đổi tính chất của virus
        hay không. Các đột biến trong tương lai có thể tác động tiêu cực (hoặc
        tích cực) đến tỷ lệ mắc bệnh và các hậu quả đến sức khỏe của con người.
        Do đó, việc theo dõi di truyền và đặc tính sinh học của các đột biến mới
        là những nghiên cứu luôn được ưu tiên cao.
      - >-
        Các nhà nghiên cứu đã chỉ ra rằng, dơi ăn quả thuộc họ Pteropodidae là
        vật chủ tự nhiên của virus Ebola. Loại virus này xâm nhập vào cơ thể con
        người thông qua tiếp xúc gần gũi với máu, dịch tiết, nội tạng hoặc các
        chất dịch cơ thể khác của động vật bị nhiễm bệnh như dơi ăn quả, tinh
        tinh, khỉ đột, linh dương rừng, nhím bị bệnh hoặc đã chết.


        **Bệnh do vi rút Ebola** không lây truyền qua không khí  không lây lan
        qua tiếp xúc thông thường, chẳng hạn như  gần người bị nhiễm bệnh.
        Không giống như các bệnh về đường  hấp,  thể lây lan bởi các hạt tồn
        tại trong không khí sau khi người nhiễm bệnh ho hoặc hắt hơi, Ebola lây
        lan qua tiếp xúc trực tiếp với chất dịch  thể của người mắc bệnh.


        Ebola lây truyền từ người sang người thông qua tiếp xúc trực tiếp (qua
        da trầy xước hoặc niêm mạc  mắt, mũi, miệng) với:


        * Máu hoặc dịch  thể của người bị bệnh hoặc đã chết  Ebola

        * Các đối tượng đã bị nhiễm chất dịch  thể (như máu, phân, chất nôn)
        từ một người mắc bệnh Ebola hoặc  thể của một người chết  Ebola.

        * Các vật thể (như quần áo, khăn trải giường, kim tiêm  thiết bị y tế)
        bị nhiễm chất dịch  thể từ một người bị bệnh hoặc đã chết  EVD.

        * Tinh dịch từ một người đàn ông đã hồi phục từ EVD (thông qua quan hệ
        tình dục bằng miệng, âm đạo hoặc hậu môn). Virus  thể tồn tại trong
        một số chất dịch  thể (bao gồm cả tinh dịch) của một bệnh nhân đã khỏi
        bệnh EVD, ngay cả khi họ không còn  triệu chứng bệnh nặng.


        Những nhân viên y tế trong quá trình điều trị cho các bệnh nhân bị nghi
        ngờ hoặc đã nhiễm Ebola cũng  thể bị lây nhiễm thông qua tiếp xúc gần
        gũi với bệnh nhân, đặc biệt, khả năng bị lây nhiễm sẽ rất cao nếu các
        biện pháp phòng ngừa  kiểm soát nhiễm trùng không được thực hiện
        nghiêm ngặt.


        Hơn thế nữa, Ebola  thể lây truyền thông qua các nghi lễ chôn cất liên
        quan trực tiếp đến  thể của người đã chết do dịch bệnh.


        Hãy nhớ rằng, bệnh  thể truyền nhiễm bất cứ lúc nào từ người sang
        người miễn  trong máu của họ  chứa **virus Ebola**. Phụ nữ mang thai
        bị nhiễm Ebola cấp tính  đã được điều trị khỏi bệnh vẫn  thể mang
        vi-rút trong sữa mẹ, hoặc trong các chất lỏng   liên quan đến thai
        kỳ. Điều này  nguy  lây truyền sang cho con  cho những người xung
        quanh.
      - >-
        Theo một số nghiên cứu, **liệu pháp thay thế hormone** có thể làm tăng
        nhẹ nguy cơ mắc bệnh tim mạch, ung thư vú và đột quỵ ở những phụ nữ
        [**mãn
        kinh**](https://www.vinmec.com/vie/bai-viet/lieu-phap-hormone-thay-hrt-thoi-ky-man-kinh-vi)
        đang sử dụng kết hợp
        [**estrogen**](https://www.vinmec.com/vie/bai-viet/estrogen-la-gi-va-co-vai-tro-gi-vi)
        và progestin (một dạng progesterone). Tuy nhiên, đối tượng phần lớn đã
        ngoài 60 tuổi có thể làm giảm tính thuyết phục của kết quả nghiên cứu.


        Lợi ích  thể nhiều hơn rủi ro nhưng **liệu pháp thay thế hormone** vẫn
         thể làm tăng nguy  mắc các bệnh lý:


        * [**Ung thư nội mạc tử
        cung**](https://www.vinmec.com/vie/bai-viet/ung-thu-noi-mac-tu-cung-trieu-chung-nguyen-nhan-va-tam-soat-benh-vi)
        (dùng estrogen không  proestin)

        * Các **cục máu đông**

        * [**Đột
        quỵ**](https://www.vinmec.com/vie/bai-viet/dot-quy-nguyen-nhan-dau-hieu-nhan-biet-cach-phong-tranh-vi)

        * [**Ung thư
        vú**](https://www.vinmec.com/vie/bai-viet/ung-thu-vu-dau-hieu-nguyen-nhan-cach-phong-tranh-va-dieu-tri-vi)
  - source_sentence: 'query: Bạn cần thảo luận về kế hoạch mang thai với bác sĩ'
    sentences:
      - >-
        Chế phẩm sinh học tương đối mới. Do đó, những ảnh hưởng lâu dài đối với
        trẻ sơ sinh tiếp xúc với chế phẩm sinh học trong [**thời kỳ mang
        thai**](https://www.vinmec.com/vie/bai-viet/qua-trinh-thai-nhi-hinh-thanh-va-phat-trien-theo-tung-tuan-vi)
        chưa được nghiên cứu. Các chuyên gia tin rằng nguy cơ này thấp và kết
        luận rằng, khả năng [**dị tật thai
        nhi**](https://www.vinmec.com/vie/bai-viet/cac-di-tat-thai-nhi-thuong-gap-vi)
        khi sử dụng sinh phẩm trong thời kỳ mang thai là gần với tỷ lệ của những
        người mang thai không sử dụng sinh phẩm.


        Bạn  bác  sẽ cần thảo luận về rủi ro của việc sử dụng thuốc chế phẩm
        sinh học trong thai kỳ so với rủi ro  thể xảy ra đối với em  của
        bạn. Bạn  thể phải tạm ngưng thuốc trong thời gian mang thai tùy thuộc
        vào loại chế phẩm sinh học bạn đang sử dụng.
      - >-
        [**Hội chứng
        Sjögren**](https://www.vinmec.com/vie/benh/hoi-chung-sjogren-4810) là
        một bệnh tự miễn không rõ nguyên nhân, ảnh hưởng đến mô liên kết và các
        tuyến gần miệng và mắt. Khô miệng là một trong các triệu chứng đặc trưng
        của hội chứng này. Các [**bệnh tự
        miễn**](https://www.vinmec.com/vie/bai-viet/cach-tang-cuong-mien-dich-cho-nguoi-mac-benh-tu-mien-vi)
        khác, chẳng hạn như [**viêm khớp dạng
        thấp**](https://www.vinmec.com/vie/bai-viet/viem-khop-dang-thap-nguyen-nhan-trieu-chung-chan-doan-va-dieu-tri-vi)
        hoặc lupus, có thể xuất hiện cùng với bệnh Sjögren.


        Hiện chưa  cách chữa khỏi bệnh hoàn toàn, việc điều trị chủ yếu 
        kiểm soát các triệu chứng, giúp người bệnh cảm thấy dễ chịu hơn.
      - >-
        [**Nang thận**](https://www.vinmec.com/vie/benh/nang-than-4914) được
        phân loại thành 4 loại gồm:


        * Loại 1: Thành nang mỏng, đơn giản.

        * Loại 2: Thành nang vôi hóa nhẹ. Vách giữa mỏng không tăng đậm.

        * Loại 3: Thành nang vôi hóa dày, không đều nhiều ngăn.

        * Loại 4: Thành dày, vôi hóa nhiều, thành phần đặc bên trong  thành
        phần tăng đậm.


        Tình trạng **nang thận**  hầu hết bệnh nhân đều do  tình thực hiện
        các cận lâm sàng  phát hiện ra như [**siêu âm
        bụng**](https://www.vinmec.com/vie/bai-viet/sieu-am-o-bung-la-sieu-am-nhung-bo-phan-nao-vi)
        cho hình ảnh nang dịch liên tục với nhu  thận. Chụp CT cho hình ảnh
        chẩn đoán chính xác  nhất về phân độ nguy  ung thư hóa của nang
        thận.
  - source_sentence: |
      query: Những công dụng cụ thể của pectin trong thực phẩm và làm đẹp là gì?
    sentences:
      - >-
        Nhiều nghiên cứu về thần kinh cho biết khi chúng ta bước vào độ tuổi từ
        20 - 25, tế bào thần kinh sẽ bắt đầu thoái hóa, cụ thể có đến 3000 [**tế
        bào não**](https://www.vinmec.com/vie/co-the-nguoi/te-bao-than-kinh-165)
        chết đi mỗi ngày. Tế bào não là tế bào không sản sinh thêm. Thêm vào đó
        các gốc tự do bên trong cùng với các yếu tố ngoại cảnh khác sẽ khiến sự
        thoái hóa diễn ra nghiêm trọng, ảnh hưởng rất lớn đến các hoạt động
        thường ngày.


        ### 3.1. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến công việc


        Người bị **suy giảm trí nhớ  người trẻ** thường sẽ luôn trong trạng
        thái thiếu tập trung,  đãng khi học tập hoặc khi làm việc. Khi trí nhớ
        bị suy giảm kéo theo nhận thức   duy giải quyết vấn đề bị sa sút
        theo, bệnh nhân phản ứng với mọi thứ xung quanh một cách chậm chạp, khả
        năng đáp ứng công việc hay bài học không được như trước.


        ### 3.2. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến cuộc sống


        **Suy giảm trí nhớ  người trẻ** gây nhiều bất tiện trong sinh hoạt hằng
        ngày của người bệnh.  dụ như: bệnh nhân thường xuyên quên khóa cửa khi
        ra ngoài, đi chợ quên mang ví... **Suy giảm trí nhớ  người trẻ** dẫn
        đến tâm trạng  hành vi của bệnh nhân thay đổi thất thường, dễ cáu gắt
        hơn  còn ảnh hưởng đến các mối quan hệ xung quanh.


        ### 3.3. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến sức khỏe


        Nếu bệnh nhân không khắc phục chứng **suy giảm trí nhớ  người trẻ** kịp
        thời thì bệnh tình sẽ dễ chuyển sang giai đoạn sa sút trí tuệ trong 3
        năm sau đó. Lúc này não bộ sẽ dần mất đi quyền điều khiển  quan, khiến
        sức khỏe của bệnh nhân bị ảnh hưởng nghiêm trọng, thường không phục hồi
        được. Cụ thể, bệnh nhân **suy giảm trí nhớ  người trẻ**  thể sẽ phải
        gặp một trong các trường hợp sau: teo não, chết tế bào não, tổn thương
        chất trắng, [**tổn thương mạch máu
        não**](https://www.vinmec.com/vie/bai-viet/ton-thuong-nao-nguyen-nhan-trieu-chung-phuong-phap-dieu-tri-vi)**...**
      - >-
        Núm phụ răng (Dens evaginatus) là thuật ngữ được dùng để chỉ những bất
        thường của răng có hình dạng giống như núm, múi dư trên bề mặt răng.
        Tình trạng này thường xuất hiện ở mặt trong của răng hàm trên (Còn gọi
        là múi Talon) hoặc mặt nhai của răng cối nhỏ hàm dưới.


        Nguyên nhân của tình trạng răng  núm phụ này đến nay vẫn chưa được xác
        định. Một số giả thuyết đặt ra  do di truyền hoặc do chấn thương cục
        bộ tác động lên mầm răng.


        Trong giai đoạn phôi thai, sự bất thường về tăng sinh  gấp lại 1 phần
        biểu  men  bên trong  các tế bào ngoại bào phía dưới của nhú răng
         diễn ra trong suốt giai đoạn chuông của quá trình hình thành răng.
      - >-
        Chất **xơ** **tan trong nước** (pectin) là một phụ gia thực phẩm được sử
        dụng như chất nhũ hóa, chất ổn định và chất làm đặc. Bên cạnh đó, nó còn
        có những công dụng sau đây:


        * Pectin được sử dụng làm chất tạo gel.

        * Sử dụng làm chất làm đặc  ổn định.

        * Pectin được sử dụng trong mứt để  vẻ ngoài giống như thạch.

        * Dùng để chống lại [**táo
        bón**](https://www.vinmec.com/vie/benh/tao-bon-3001)  [**tiêu
        chảy**](https://www.vinmec.com/vie/benh/tieu-chay-3002) bằng cách tăng
        độ nhớt  khối lượng của phân. Đặc biệt, **chất xơ** này còn  thể
        giúp giảm buồn nôn.

        *  còn được sử dụng trong các sản phẩm mỹ phẩm như một chất ổn định.
datasets:
  - BookingCare/ViHealthQA
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: >-
      Gte mulitilingual base trained on Vietnamese Health Question Answering
      pairs
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: cosine_accuracy@1
            value: 0.917
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.964
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.972
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.984
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.917
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.32133333333333325
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.19440000000000004
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.0984
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.917
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.964
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.972
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.984
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.9525409048997587
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.9422825396825398
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.9427159209536504
            name: Cosine Map@100
          - type: cosine_accuracy@1
            value: 0.896
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.961
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.974
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.985
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.896
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.32033333333333325
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1948
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.09850000000000002
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.896
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.961
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.974
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.985
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.9442222949139711
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.9307456349206351
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.9313462146962764
            name: Cosine Map@100

Gte mulitilingual base trained on Vietnamese Health Question Answering pairs

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the vi_health_qa dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
  • Language: vi

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("BookingCare/gte-multilingual-base-v2.1")
# Run inference
sentences = [
    'query: Những công dụng cụ thể của pectin trong thực phẩm và làm đẹp là gì?\n',
    'Chất **xơ** **tan trong nước** (pectin) là một phụ gia thực phẩm được sử dụng như chất nhũ hóa, chất ổn định và chất làm đặc. Bên cạnh đó, nó còn có những công dụng sau đây:\n\n* Pectin được sử dụng làm chất tạo gel.\n* Sử dụng làm chất làm đặc và ổn định.\n* Pectin được sử dụng trong mứt để có vẻ ngoài giống như thạch.\n* Dùng để chống lại [**táo bón**](https://www.vinmec.com/vie/benh/tao-bon-3001) và [**tiêu chảy**](https://www.vinmec.com/vie/benh/tieu-chay-3002) bằng cách tăng độ nhớt và khối lượng của phân. Đặc biệt, **chất xơ** này còn có thể giúp giảm buồn nôn.\n* Nó còn được sử dụng trong các sản phẩm mỹ phẩm như một chất ổn định.',
    'Núm phụ răng (Dens evaginatus) là thuật ngữ được dùng để chỉ những bất thường của răng có hình dạng giống như núm, múi dư trên bề mặt răng. Tình trạng này thường xuất hiện ở mặt trong của răng hàm trên (Còn gọi là múi Talon) hoặc mặt nhai của răng cối nhỏ hàm dưới.\n\nNguyên nhân của tình trạng răng có núm phụ này đến nay vẫn chưa được xác định. Một số giả thuyết đặt ra là do di truyền hoặc do chấn thương cục bộ tác động lên mầm răng.\n\nTrong giai đoạn phôi thai, sự bất thường về tăng sinh và gấp lại 1 phần biểu mô men ở bên trong và các tế bào ngoại bào phía dưới của nhú răng và diễn ra trong suốt giai đoạn chuông của quá trình hình thành răng.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.917
cosine_accuracy@3 0.964
cosine_accuracy@5 0.972
cosine_accuracy@10 0.984
cosine_precision@1 0.917
cosine_precision@3 0.3213
cosine_precision@5 0.1944
cosine_precision@10 0.0984
cosine_recall@1 0.917
cosine_recall@3 0.964
cosine_recall@5 0.972
cosine_recall@10 0.984
cosine_ndcg@10 0.9525
cosine_mrr@10 0.9423
cosine_map@100 0.9427

Information Retrieval

Metric Value
cosine_accuracy@1 0.896
cosine_accuracy@3 0.961
cosine_accuracy@5 0.974
cosine_accuracy@10 0.985
cosine_precision@1 0.896
cosine_precision@3 0.3203
cosine_precision@5 0.1948
cosine_precision@10 0.0985
cosine_recall@1 0.896
cosine_recall@3 0.961
cosine_recall@5 0.974
cosine_recall@10 0.985
cosine_ndcg@10 0.9442
cosine_mrr@10 0.9307
cosine_map@100 0.9313

Training Details

Training Dataset

vi_health_qa

  • Dataset: vi_health_qa at e2b7864
  • Size: 114,654 training samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 8 tokens
    • mean: 16.99 tokens
    • max: 59 tokens
    • min: 25 tokens
    • mean: 374.24 tokens
    • max: 998 tokens
  • Samples:
    query document
    query: Điều chỉnh lại liều lượng sử dụng collagen Theo nhiều nghiên cứu khoa học, với 1000 – 2000mg collagen là liều lượng phù hợp nhất để cơ thể hấp thu, giúp phát huy tác dụng từ collagen. Đặc biệt, để tốt cho xương khớp, tóc, móng và da ở độ tuổi 30, bạn cần dùng ít nhất 3000mg collagen mỗi ngày, tuy nhiên cũng không nên dùng vượt qua 5000mg/ ngày.
    query: Sử dụng một số loại thuốc trị mụn tại chỗ Một số loại thuốc trị mụn tại chỗ dạng gel như Differin, Retin-A, Nexon... có thể vừa giúp làm giảm lượng bã nhờn trên da vừa hỗ trợ điều trị tình trạng mụn trứng cá.
    query: Hội chứng suy nút xoang là gì? Hội chứng suy nút xoang là một dạng rối loạn nhịp tim đặc biệt, gây ảnh hưởng đến nút xoang, là bộ phận tạo nhịp tim tự nhiên của cơ thể. Nó có thể gây chậm nhịp tim hoặc tạo ra những khoảng thời gian ngưng tim kéo dài giữa những lần tim đập. Nguy hiểm hơn là khiến cho nhịp tim không đều, dẫn tới suy tim.

    Hội chứng này có thể phát sinh từ nhiều nguyên nhân khác nhau, bao gồm tự nhiên hoặc do các yếu tố bên ngoài như căng thẳng, thay đổi hormone, hoặc các vấn đề về hệ thống dẫn truyền tín hiệu điện trong tim. Tuy khá hiếm gặp, nhưng càng lớn tuổi càng có nguy cơ mắc phải hội chứng này. Nhiều trường hợp đã phải gắn thêm máy tạo nhịp để tim đập ổn định hơn. Hội chứng này còn được gọi là rối loạn chức năng nút xoang, hoặc bệnh nút xoang.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

vi_health_qa

  • Dataset: vi_health_qa at e2b7864
  • Size: 114,654 evaluation samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 7 tokens
    • mean: 16.77 tokens
    • max: 52 tokens
    • min: 2 tokens
    • mean: 358.34 tokens
    • max: 1021 tokens
  • Samples:
    query document
    query: Biến chứng của hội chứng vành cấp: SCA Một số biến chứng nghiêm trọng đe dọa bệnh nhân trong những ngày sau SCA, đặc biệt là loại STEMI.

    * Sốc tim và suy thất: đặt bóng đối xung động mạch chủ là biện pháp được lựa chọn để làm giảm công thất (T) và cải thiện tưới máu mạch vành mà không làm tăng mVO2;
    * Rối loạn nhịp tim: rung nhĩ ,bloc dẫn truyền nhĩ-thất, nhịp tim nhanh hoặc rung tâm thất;
    * Hở van hai lá do giãn thất (T): thiếu máu cục bộ xuyên thành hoặc đứt cơ nhú; trong trường hợp hở van hai lá nặng, đặt bóng đối xung có hiệu quả trong việc chờ sửa chữa phẫu thuật;
    * Thông liên thất: cần đóng thông liên thất bằng phẫu thuật;
    * Vỡ thất (T): thường gây chết người nhất bởi chèn ép tim cấp tính;
    * Chứng phình vách thất (T): Thuốc ức chế men chuyển ức chế tái định dạng thất (T), nhưng phẫu thuật cắt bỏ chỗ phình thường là cần thiết;
    * *Huyết khối trong buồng...
    query: Ưu và nhược điểm của thuốc tránh thai chỉ có progestin ### 3.1. Ưu điểm của thuốc tránh thai chỉ có progestin

    Viên tránh thai chỉ có progestin tốt hơn các loại thuốc tránh thai bình thường khác nếu sử dụng trong những trường hợp đang cho con bú vì loại thuốc này sẽ không ảnh hưởng đến quá trình sản xuất sữa (estrogen làm giảm chất lượng và số lượng sữa).

    ###

    Loại này cũng an toàn hơn các loại thuốc tránh thai bình thường trong một số trường hợp như ở phụ nữ trên 35 tuổi, những trường hợp hút thuốc lá, tăng huyết áp, béo phì và có tiền sử các bệnh về đông máu.

    Viên tránh thai thông thường làm cho một vài phụ nữ bị đau dạ dày hay đau đầu nhiều. Trong khi đó, thuốc tránh thai chứa progestin thường không gây ra các tác dụng phụ này.

    ### 3.2. Nhược điểm của thuốc tránh thai chỉ có progestin

    Nhược điểm của thuốc ngừa thai chỉ có progestin là:

    Phải uống liên tục mỗi ngày, không có ngày nghỉ, và đặc biệt phải uống đúng giờ trong ngày. Nếu quên uống một ngày, phải sử dụng phương pháp tránh thai thứ 2 cho hết chu kỳ đó (cho đến c...
    query: Có cái nhìn thực tế về giảm cân sau sinh Hãy nhớ rằng bạn rất khó trở lại cân nặng hoặc hình dạng chính xác như trước khi mang thai. Đối với nhiều phụ nữ, mang thai sẽ gây ra những thay đổi vĩnh viễn. Bụng của họ sẽ mềm hơn, hông rộng hơn một chút và vòng eo lớn hơn. Vì vậy, bạn nên điều chỉnh mục tiêu của mình sao cho gần với thực tế nhất, tránh gây áp lực cho bản thân.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_eval_batch_size: 16
  • per_gpu_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True
  • prompts: {'query': 'query: '}
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: 16
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: {'query': 'query: '}
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss cosine_ndcg@10
0 0 - - 0.8843
0.0001 1 0.456 - -
0.0142 100 - 0.5898 0.9111
0.0284 200 - 0.4075 0.9196
0.0426 300 - 0.3532 0.9181
0.0568 400 - 0.3171 0.9228
0.0710 500 0.3184 0.2899 0.9293
0.0852 600 - 0.3014 0.9260
0.0994 700 - 0.2637 0.9278
0.1136 800 - 0.2716 0.9284
0.1278 900 - 0.2485 0.9342
0.1420 1000 0.1511 0.2655 0.9339
0.1562 1100 - 0.2524 0.9381
0.1704 1200 - 0.2727 0.9334
0.1846 1300 - 0.2613 0.9397
0.1988 1400 - 0.2356 0.9426
0.2130 1500 0.1638 0.2365 0.9381
0.2272 1600 - 0.2646 0.9373
0.2414 1700 - 0.2542 0.9390
0.2556 1800 - 0.2648 0.9388
0.2698 1900 - 0.2660 0.9385
0.2841 2000 0.1197 0.2547 0.9413
0.2983 2100 - 0.2566 0.9417
0.3125 2200 - 0.2615 0.9375
0.3267 2300 - 0.2421 0.9432
0.3409 2400 - 0.2606 0.9419
0.3551 2500 0.1195 0.2593 0.9438
0.3693 2600 - 0.2663 0.9426
0.3835 2700 - 0.2720 0.9405
0.3977 2800 - 0.2614 0.9419
0.4119 2900 - 0.2568 0.9474
0.4261 3000 0.1113 0.2506 0.9469
0.4403 3100 - 0.2406 0.9461
0.4545 3200 - 0.2326 0.9483
0.4687 3300 - 0.2348 0.9469
0.4829 3400 - 0.2410 0.9435
0.4971 3500 0.119 0.2326 0.9456
0.5113 3600 - 0.2239 0.9481
0.5255 3700 - 0.2217 0.9474
0.5397 3800 - 0.2208 0.9457
0.5539 3900 - 0.2166 0.9467
0.5681 4000 0.1037 0.2154 0.9484
0.5823 4100 - 0.2100 0.9509
0.5965 4200 - 0.2144 0.9485
0.6107 4300 - 0.2081 0.9482
0.6249 4400 - 0.2050 0.9485
0.6391 4500 0.1253 0.2030 0.9480
0.6533 4600 - 0.1994 0.9485
0.6675 4700 - 0.2005 0.9498
0.6817 4800 - 0.1965 0.9503
0.6959 4900 - 0.1959 0.9518
0.7101 5000 0.1074 0.1931 0.9526
0.7243 5100 - 0.1907 0.9523
0.7385 5200 - 0.1921 0.9535
0.7527 5300 - 0.1932 0.9533
0.7669 5400 - 0.1989 0.9515
0.7811 5500 0.109 0.2031 0.9505
0.7953 5600 - 0.2066 0.9494
0.8095 5700 - 0.2083 0.9503
0.8237 5800 - 0.2066 0.9507
0.8379 5900 - 0.2081 0.9506
0.8522 6000 0.0963 0.2073 0.9509
0.8664 6100 - 0.2113 0.9512
0.8806 6200 - 0.2083 0.9517
0.8948 6300 - 0.2073 0.9516
0.9090 6400 - 0.2043 0.9518
0.9232 6500 0.0901 0.2017 0.9527
0.9374 6600 - 0.2007 0.9529
0.9516 6700 - 0.2002 0.9529
0.9658 6800 - 0.2009 0.9522
0.9800 6900 - 0.2004 0.9524
0.9942 7000 0.081 0.2003 0.9525
1.0 7041 - - 0.9442

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.4.0
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}