일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Aggregation
- request cache
- Analyzer
- NORI
- java crawler
- mysql
- elasticsearch cache
- JPA
- vavr
- KNN
- aqqle
- Elastic
- Query
- Cache
- java
- Elasticsearch
- IONQ
- redis
- 아이온큐
- Docker
- dbeaver
- Selenium
- api cache
- API
- 테슬라
- file download
- TSLA
- 양자컴퓨터
- aggs
- ann
- Today
- Total
목록NLP/HuggingFace (6)
아빠는 개발자
아래 3개의 모델로 텍스트 유사도를 비교할 예정 jhgan = jhgan/ko-sbert-stssnunlp = snunlp/KR-SBERT-V40K-klueNLI-augSTSupskyy = upskyy/bge-m3-korean 3개 모델의 차이를 비교해 보면 아래와 같다. 모델Transformer 모델최대 시퀀스 길이 임베딩 차원파인튜닝 데이터STS DevPearsonCosine문서 분류정확도다국어지원jhgan/ko-sbert-stsBert128768KorSTS (한국어 STS)0.8155N/A한국어 전용snunlp/KR-SBERT-V40K-klueNLI-augSTSBert12876840K 말뭉치 + KLUE NLI + 증강 STSN/A (벤치마크 참조)0.8628 (Hugging Face)한국어 전용..
aqqle 에서 뭘 써야 할지.. from sentence_transformers import SentenceTransformer, util# 1) 모델 로드model = SentenceTransformer('jhgan/ko-sbert-sts')# 2) 비교할 문장 리스트sentences = [ "오늘 날씨가 정말 좋네요.", "날씨가 맑아서 기분이 좋습니다."]# 3) 임베딩 생성 (Tensor 반환)embeddings = model.encode(sentences, convert_to_tensor=True)# 4) 코사인 유사도 계산cos_sim = util.cos_sim(embeddings[0], embeddings[1])print(f"Similarity score: {cos_sim.it..
upskyy/bge-m3-korean 이게 가장 좋다고 하니 테스트 해보잣.아까와 동일한 단어 .. 아까라고 한다면 snunlp import torchfrom sentence_transformers import SentenceTransformer, models, utildef load_sentence_model(model_name="upskyy/bge-m3-korean"): # GPU 사용 가능 시 device = "cuda" if torch.cuda.is_available() else "cpu" print(f"Using device: {device}") # 1) Transformer 모듈 생성: tokenizer_args로 use_fast=False 강제 word_embedd..
nlp 환경에 접속conda activate nlp 라이브러리 설치 # 필수 라이브러리 설치pip install torch transformers sentence-transformers 사용 가능한 모델 ID: snunlp/KR-SBERT-V40K-klueNLI-augSTS 이 모델은 “KLUE-NLI” 데이터에 기반해 파인튜닝된 SBERT로, 문장 유사도나 클러스터링 등에 바로 활용 from sentence_transformers import SentenceTransformer, util# 올바른 모델 IDmodel = SentenceTransformer("snunlp/KR-SBERT-V40K-klueNLI-augSTS")sentences = ["문장 A", "문장 B"]# 임베딩 생성 및 유사도 계..
호환성을 고려한 버전이 3.12 라고 하니가상환경을 만들어 보자 .conda create -n nlp python=3.12 -yconda activate nlp# To activate this environment, use## $ conda activate nlp## To deactivate an active environment, use## $ conda deactivate 패키지 설치# PyTorch (또는 TensorFlow) pip install torch # CPU 전용; GPU 쓰면 cuda 버전 명시 # Transformers 핵심 라이브러리 pip install transformers # 전처리·토크나이저 지원 pip install tokeniz..
Hugging Face는 최신 자연어 처리(NLP) 기술을 손쉽게 사용할 수 있도록 해주는 AI 플랫폼이자 오픈소스 라이브러리를 제공하는 회사입니다. 특히 Transformers 라이브러리를 통해 BERT, GPT, T5 등 사전학습된 대규모 언어 모델들을 매우 간단하게 활용할 수 있도록 해주며, NLP 뿐 아니라 음성, 이미지, 멀티모달 작업도 지원합니다. 1. Hugging Face란?회사 소개:2016년 설립, 처음에는 챗봇으로 시작 → 이후 NLP 커뮤니티 중심 플랫폼으로 진화대표 라이브러리:transformers: NLP 모델 (BERT, GPT 등)datasets: 대규모 데이터셋 로딩/처리tokenizers: 빠른 토크나이저 구현 (Rust 기반)evaluate: 모델 평가 지표 지원 (ac..