Fluid
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

【工具教程】uv包管理:torch安装与docker部署

【工具教程】uv包管理:torch安装与docker部署前两天用conda创建新环境时,发现torch的安装会有问题。使用conda install安装的torch,会在import torch的时候报错: 1ImportError: /home/wsl/anaconda3/envs/testTorch/lib/python3.11/site-packages/torch/lib/libtorch
2025-12-12
#教程

【小巧思】B站视频一键总结

1. 前言最近做了一个事情,需求大致是输入一个BVID,经过一段时间(约4-5min),输出一张该视频的总结图,目的是绘声绘色地总结视频内容。 例如,一个关于模型训练的视频,只需要输入bv号BV1aG1xBgEen原视频直达链接,就可以输出以下图片 感觉这个workflow非常适合知识类内容的总结,相比较于纯文字,对于读者来说更生动了。 除了这种知识性的视频总结,还让朋友尝试总结了其他类型的视频
2025-11-18
#workflow

【马原科普】当AI开始"说谎":马克思主义视角下的大模型幻觉

课程作业,感觉挺有意思的,确实也花费了自己不少时间,发到blog玩玩。 当AI开始”说谎”:马克思主义视角下的大模型幻觉你有没有试过向Deepseek提问,结果它却一本正经地胡说八道?比如,当你问他“今年诺贝尔和平奖得主是谁”时,他可能会把今年识别成2024年,还会煞有介事地把诺贝尔和平奖颁给其他人。事实上今年并非2024年,而2024年的诺贝尔和平奖得主也并非它所说的“穆尔塔扎·贝赫布迪”。从中
2025-11-08
#科普

【杂谈】想到什么就记点什么

1. Lokr训练过拟合问题上次把面部和服饰的词全删了,直接用触发词来涵盖整个角色形象。使得训练出的模型过于僵硬,基本上是训练集的图片的直接复刻,表情僵硬(手机自拍挡脸)练死了,相关概念过拟合,无法触发多人图。 现在的思路是使用完整的caption,让模型能学会每一个精细的概念与描述。若想要复刻人物形象,再用人物相关的形象描述词来控制。包装成给用户使用时,可以用LLM或脚本来提前预设人物外貌相关的
2025-10-08
#杂谈

【论文速通省流】Bert&GPT3

一、BERTWord2Vec 使用训练好的模型来抽取词语、句子的特征,但只能提取比较基本的特征,忽略了时序信息;语言模型只能单向的提取前文的信息,用于后文推理,更多用于生成。 而这两者面对新的下游任务时,往往只能作为Embedding层等,用于提取初级特征,后续还要设计新的网络架构,从零训练来适应下游任务。 BERT想做的是直接设计成一个预训练好的模型,之后应对下游任务只需要在小的数据集上进行微调
2025-10-05
#论文速通省流

【学习笔记】Transformer-zero-to-all

一、Tokenization将原始文本拆分成一个个token 1. 字粒度对于英语:按字母分割 对于中文:按字分割 优点:词表小 缺点:丢失了大量词汇的语义信息与边界信息、难以训练、对计算也会带来压力(输入输出变多) 2. 词粒度对于英语等拉丁语言:按空格切分 对于中文:前(后)向最大匹配法、最短路径分词法、基于 N-gram 的统计词频分词法 (1) 前向最大匹配法选定最大匹配长度,例如2(可以
2025-10-02
#Transformer

【多模态玩具】多模态大模型的训练和推理

一、什么是多模态?通过融合多种数据模态(例如图片、音频、视频、文本等)来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合。 文本模态的表示:文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出的n-grams词袋表示等。目前,主流的文本表示方法是预训练文本模型,如BERT。 视觉模态的表示:视觉模
2025-09-29
#多模态

【炼丹玩具】AI绘图LoKR训练角色概念的尝试

一.什么是LoKrLoKr是微调技术的一种,属于Lycoris,其效果和应用场景类似于LoRA。 模型的训练实际上是模型参数的改变,利用梯度下降来计算模型参数的变化量$\Delta W$,最后用$W_{new} = \Delta W + W_{before}$. LoRA (Low Rank Adaption,低秩微调)大概思想就是,如果我能用一个更好训练的低秩矩阵来替代$\Delta
2025-09-24
#SDXL-LoKr训练

搜索

Hexo Fluid