【杂谈】想到什么就记点什么

1. Lokr训练过拟合问题

上次把面部和服饰的词全删了,直接用触发词来涵盖整个角色形象。使得训练出的模型过于僵硬,基本上是训练集的图片的直接复刻,表情僵硬(手机自拍挡脸)练死了,相关概念过拟合,无法触发多人图。

现在的思路是使用完整的caption,让模型能学会每一个精细的概念与描述。若想要复刻人物形象,再用人物相关的形象描述词来控制。包装成给用户使用时,可以用LLM或脚本来提前预设人物外貌相关的描述词,在实际推理的时候补在用户所选用的触发词的后面,可保证用户使用时体验与先前一致。

至于多人出图,好像大家用SD绘图时基本上都是生成单人图像。如果要多人图像,可以先用SD生成对应的各个角色的图片,再用相关Edit模型来混在一起,最后出成品图片给用户。这种任务拆分和执行训练一个agent应该能做,不过agent怎么搞还没有思路。

2. 多模态相关

LLM发展太快了,给人带来了“智能”感,最近速通了李沐老师的GPT与Bert论文精读,感觉LLM约等于改进的TransformerDecoder+无标号大样本预训练+指令微调+强化学习,架构如果都是基于Decoder的话,剩下的无非是想办法创造出高质量数据集和设计损失函数(个人观点,可能有点武断;最新的模型好像也类似这样,没有仔细了解,平常新闻听说的创新好像也就是专家模型、思维链、强化学习什么的)。

如果LLM真的是“智能”的话,他的内部应该是有一套自己的语义空间的,那么做多模态只要让“输入”和“输出”都能被LLM内部的语义空间理解就行。自然而然的想法就是直接做“对齐”,用图像文本对来训练,把图片用图像编码器(CNN或者Vit)处理成向量,让他与文本对齐。这样的缺陷就是图片对于LLM而言似乎是直接被等同于一段文字了,对齐的描述性文字无法用文字描述图片的所有信息,因而导致会漏掉一些信息,从而不够智能。例如GPT数手指,如果做对齐的时候不包含有几根手指的描述,图像编码器没学到手指数目与图片的对应关系,那么输出的结果就是瞎蒙(幻觉)。给人的感觉就是图片编码器太呆了,无法灵活地“注意到”用户需要的信息。图片编码器基本上都是在图片分类上做预训练,我感觉像是这个分类任务让他的特征提取变得很呆,如果能用到LLM训练的那一套新东西或许能更好点。(更武断了,应该多收集一些多模态目前遇到的其他问题再做判断,数物品这种问题用语义分割或目标检测再算格子好像也能直接解决)

至于交叉注意力的那套方案,一开始脑补的训练成本很高,基本上要重新训练LLM的关键层,就没怎么多想了。

3. 未来计划

前一阵子看完了AI共生指南:技术探索与人文思考(豆瓣)(基本上在讲故事哈哈),里面关于强化学习的相关内容还是挺感兴趣的。用AI写强化学习,解决一些现实问题还是太酷了,未来打算稍微学一点,然后借助AI coding搭一个项目试试。

还有就是后面关于Apple公司的AI赋能有点感染到我了,书中的边端小模型似乎确实很有价值,特别是最近看到了一个蒸馏的32B模型,似乎很强,想再多了解一下。不过这个优先级应该最低,离我太远了。

幻觉的相关研究到时候也了解一下,DeepSeekR1的幻觉太离谱了,他的所有“人性化”的表现在我眼里都是幻觉,像是训练过程中被逼迫地服从用户指令、满足用户需求的成果。例如DeepSeek“彩蛋”与“资深用户”-哔哩哔哩,这种做法会误导用户,理应让AI知道什么东西他“不知道”,特别是一些知识性的问题,先入为主的误导真的很麻烦!

被大佬推荐了一本书,稍微看了一下还是太哲学了,抽空挑点感兴趣的看看得了。认知、模型与表征 (豆瓣)


【杂谈】想到什么就记点什么
https://blog.sheep0.top/2025/10/08/【杂谈】想到什么就记点什么/
作者
Sheep0
发布于
2025年10月8日
许可协议