对比学习
参考博客:https://blog.csdn.net/jcfszxc/article/details/135381129
✅ 对比学习本质上是在“重塑模型的嵌入空间(embedding space)”,让语义相似的样本距离更近、语义不相似的样本距离更远。
监督对比学习在数据点对及其标签上进行训练以区分相似和不相似的实例。https://arxiv.org/pdf/2409.12941
在数据增强的基础上添加与锚点相同类别的样本
文章步骤:表示学习框架(数据增强-编码网络-投影网络)对比损失函数(自监督对比损失-用数据增强的结果进行对比损失|监督对比损失-添加同类样本进行学习)内在的执行硬正负样本挖掘的能力,即保留以下功能,来自硬正/负样本(即与锚点继续对比对编码器有很大益处的样本)的梯度贡献很大,而来自易正/负样本(即与锚点继续对比对编码器只有轻微益处的样本)的梯度贡献很小,挖掘重要的样本很关键。
通常,损失应用于深度网络的最后一层,在测试时,利用先前层的嵌入进行下游秦阿姨任务、微调或直接检索任务。
自监督对比学习从未标记的数据中学习表示,不依赖显式标签, ...
关于不同的模型部署方案的特点
最近一段时间在进行科研训练,因此需要经常部署一些模型,近几天原本在超算中心正常运行的依托vllm部署的模型出现未知的卡顿异常。因为不知道究竟是超算问题还是vllm更新出现的新问题,所以我们打算采用新的部署方案进行测试。
在选择新的部署方案的时候发现不同的部署方案具备不同的特点,可能适配不同的需求,在此博客中进行记录。参考了一个deepseek部署文档,链接如下:https://www.chatstream.org/cn/blog/deepseek-deploy-guide
一、直接demo启动模型这是最基础的部署方式,基本上适配大部分模型,就是将模型文件下载在本地,然后基于模型的说明文档,将最基础运行模型所需要的环境配置好后,直接进行运行,这种部署方式一般是基于模型本身最基础的能力,可能不能提供某些框架所带来的额外的能力例如量化,多服务器运行等,可能在性能方面或者资源的利用方面没有办法做太多的调整。
不过这种方式很适合快速的测试和实验。
二、SGLang部署特点与优势
MLA 优化:支持 MLA (Matrix Layout Aware) 优化,可以更高效地利用 GPU 硬件,加快矩 ...
2025-2-13-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...
2025-2-12-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...
2025-2-8-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...
2025-2-8-research-diary-1
908a763bfa4cce642d04e9b8cf964884f3cd3cf7d577c7163ddb0cf036eeda0e34482cae86ad72c75106f2bd085a18d5a469e6a3c6cbf4bf1fc1d61efd3a6aad95c2f7329812cebde6560133fa2545cae4667d69c15671c02b13d24e8b3f592976c718856cb20625ebdc8527b221c50e946930b428675812104d9160beb3b46dd9b647037cb600ce6ca29a60ca870e98558cbc5983c264c406202df07e503f425b2714fc83b89887ec25a8dc8dbd216800ee46e94a19fb36e796409d63c015e0733f65044585e811d7347d60a8d1abe3ca68c84970c10e46c226183e45bdbfe8fec654efd693a96977f5df13413096dbda9869a1c267acd04 ...
deepseek部署(超算gpu)
目前由于deepseek-api调用问题,数据集构建需要将deepseek部署在本地,综合存储空间与性能考虑,目前使用的是32b的模型,以下为从hugging-face镜像下载模型的步骤:
相关参考网站如下:(1)https://blog.csdn.net/weixin_40959890/article/details/140319652
(2)https://zhuanlan.zhihu.com/p/689389892
hugging-face镜像下载模型(断点存续)安装依赖1pip install -U huggingface_hub
配置镜像网站1export HF_ENDPOINT=https://hf-mirror.com
tips:可能需要提供官网的key,具体可以在出现报错的时候再去解决
使用huggingface-cli下载模型由于我要下载的事deepseek-R1经过蒸馏后的32b模型,这里我的具体命令如下:
1huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen ...
2025-2-7-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...
2025-2-6-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...
2025-2-5-research-diary-2
ace0e7c84ee0b23906670ab04e9ade905b25fcba847694edcaff71a30ed4ffed12fecc38c35cb302c566476d9b8d517bb7cf3c1352869595f09a68d6e5cb505582cb21335a2711aa45d113fc0ddc386c142c9a17959a6ae9cc5ec5052bea85dcc6d366ae1c29ccdeb06e06f4e3fd711ee8f2f04ae05d50fc6271833fd972c6c68b877245272ba8a7aedb82ce0bb10d48b1b3d08308661a6f69b28ba38b2bb43db31b840f2adcd8a91e89febbffb2cf20b5fe02e0c73ead705e916a19262d1dd834291552087d51eff001c0fb1156aab08b30cfa1c3835557f617701fd6de8352088eb5726a33faabfcfbc88207809d0ebb92b6665823e77d2 ...