feat: Option Ciditel, Code to googlecolab,BotCidit

2024-01-11 09:26:48 -05:00 · 2024-01-11 09:26:48 -05:00 · 32066fa9fe
parent 502cf96292
commit 32066fa9fe
3 changed files with 58 additions and 10 deletions
--- a/DownloadModels.py
+++ b/DownloadModels.py
@ -7,7 +7,7 @@ from sentence_transformers import SentenceTransformer
 from pathlib import Path
 import json
 #"paraphrase-multilingual-mpnet-base-v2",'hackathon-pln-es/paraphrase-spanish-distilroberta'
-nameModel="Modelo_embedding_Mexico_Puebla_hiiamasid"
+nameModel="Modelo_embedding_CIDITEL"
 def extractConfig(nameModel="Modelo_embedding_Mexico_Puebla",relPath="./conf/experiment_config.json",dataOut="train_dataset_pos"):
    configPath=Path(relPath)
    with open(configPath, 'r', encoding='utf-8') as file:
--- a/finetrainCollabversion.py
+++ b/finetrainCollabversion.py
@ -0,0 +1,53 @@
+
+
+!pip install sentence_transformers
+!pip install unidecode
+!pip install langchain
+!pip install faiss-cpu
+from torch.utils.data import DataLoader
+import math
+import logging
+from unidecode import unidecode
+from pathlib import Path
+import json
+from sentence_transformers import SentenceTransformer, losses, InputExample
+model="paraphrase-multilingual-mpnet-base-v2"
+model = SentenceTransformer(model)
+batch_size = 32
+num_epochs = 50
+train_path = Path("/content/train.json")
+with open(train_path, 'r', encoding='utf-8') as file:
+
+  queries_Categoricos = json.load(file)
+
+train_loss = losses.MultipleNegativesRankingLoss(model=model)
+train_examples = []
+for i in queries_Categoricos.keys():
+
+  for j in queries_Categoricos[i]:
+    i=unidecode(i).strip().lower()
+    j=unidecode(j).strip().lower()
+    score = 1.0
+    #print(i)
+    train_examples.append(InputExample(texts=[ i,j], label=score))
+train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=batch_size)
+#evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name='sts-dev')
+
+# Configure the training
+warmup_steps = math.ceil(len(train_dataloader) * num_epochs * 0.1) #10% of train data for warm-up
+logging.info("Warmup-steps: {}".format(warmup_steps))
+
+# Train the cross-encoder model
+model.fit(train_objectives=[(train_dataloader, train_loss)],
+          #evaluator=evaluator,
+          epochs=num_epochs,
+          #evaluation_steps=1000,
+          warmup_steps=warmup_steps)
+
+save_path = "./%spasos/paraphrase-multilingual-mpnet-base-v2/model/"%(str(num_epochs))
+model.save(save_path)
+
+from google.colab import drive
+drive.mount('/content/drive', force_remount=True)
+
+!zip "./%sp.zip"%(str(num_epochs)) "/content/%spasos"%(str(num_epochs))
--- a/main.py
+++ b/main.py
@ -17,28 +17,22 @@ from unidecode import unidecode
 from nltk.corpus import stopwords
 from langchain.schema.embeddings import Embeddings
 from langchain.document_loaders import DataFrameLoader
-
+from general import FinderDbs,loadCopysAndData,loadmodelEmb,makeFaissdb,extractConfig,Response,remove_unwanted
 #from langchain import PromptTemplate
 # from langchain.document_loaders import TextLoader
 # from langchain.text_splitter import CharacterTextSplitter
-
 # from langchain.text_splitter import RecursiveCharacterTextSplitter
 # from langchain.document_loaders import UnstructuredFileLoader
 # from langchain.document_loaders.recursive_url_loader import RecursiveUrlLoader
 # from langchain.document_loaders import UnstructuredURLLoader
 # from langchain.document_loaders.csv_loader import CSVLoader
 # #from langchain import  LLMChain
-
-# 
-# 
 # from langchain.embeddings import HuggingFaceEmbeddings
-
-
 #from cleantext import clean



-from general import FinderDbs,loadCopysAndData,loadmodelEmb,makeFaissdb,extractConfig,Response,remove_unwanted
+

 class CustomEmbedding(Embeddings, BaseModel):
    """embedding model with preprocessing"""
@ -55,8 +49,9 @@ class CustomEmbedding(Embeddings, BaseModel):
    def embed_query(self, text: str) -> List[float]:
        return self._get_embedding(text)

-nameModel="Modelo_embedding_Mexico_Puebla_hiiamasid"  
+nameModel="Modelo_embedding_CIDITEL"  
 model=extractConfig(nameModel=nameModel,dataOut="path_model")+"/model"
+print(model)
 entrenamiento="V1.3"
 pathsqlite=extractConfig(nameModel=nameModel,dataOut="pathsqlite")
 keyanthropic=extractConfig(nameModel="SystemData",dataOut="keyantrophics")