【小巧思】B站视频一键总结

1. 前言

最近做了一个事情，需求大致是输入一个BVID，经过一段时间(约4-5min)，输出一张该视频的总结图，目的是绘声绘色地总结视频内容。

例如，一个关于模型训练的视频，只需要输入bv号BV1aG1xBgEen原视频直达链接，就可以输出以下图片

知识视频总结示例

感觉这个workflow非常适合知识类内容的总结，相比较于纯文字，对于读者来说更生动了。

除了这种知识性的视频总结，还让朋友尝试总结了其他类型的视频，试了以下鬼畜和漫谈。

异世界舅舅的某个漫谈总结视频直达链接

漫谈视频总结示例

还有鬼畜视频总结，视频直达链接

鬼畜视频总结示例

虽然存在一些问题，总体来说还是很有意思的。

2. workflow思路

大致思路就是：得到视频字幕–>生成总结文章–>转化成图片

具体而言，我经过一定探索和尝试最终总结的详细workflow就是 利用python的bilibili_api库获取爬取字幕–>用LLM总结成文章–>用LLM生成html文件–>利用python的playwright库预览html文件生成最终截图

利用这套方案的缺点如下：

（1）视频最原始的消息是由b站爬取字幕而来，注定了无法处理图像信息。所有的总结都只能根据字幕文本而来，对于静音视频或者过于抽象的视频，总结效果会很差。

（2）目前这套方法只能针对视频本来就有字幕的情况，如果视频不带有字幕选项则无法进行总结；现在B站大部分视频都有AI字幕，AI字幕对部分词语的识别会出错，可能造成总结上理解错误或者内容错误。

（3）没有开放用户自定义提示词，目前只有一套提示词，可能会导致总结角度并不满足用户需要。例如前面提到的漫谈总结，最初的需求想要总结的是剧情，目标是速通这部番，而固定提示词可能会导致总结的方向不准；目前的AI提示词没有禁止大模型的自主发挥，可能会总结一些原视频中没有出现的观点。

（4）使用bilibili_api库的方式爬取字幕，要定期手动更新一些”用户标志“，例如SESSDATA，BILI_JCT等。这些标志容易随时间过期，目前这个更新没实现自动化。

有字幕的视频

3. 实现上的问题

主要是部署上的问题，部署到linux服务器上出现好多奇奇怪怪的问题。包括但不限于字体下载问题（html中使用了一些emoji，在linux下的playwright可能预览出错）、playwright预览边框颜色rgb变化过大（最后做图像裁剪的时候容易失效）、阿里云服务器外网连接问题等等。windows上没问题，部署上去全是问题。

#workflow

【小巧思】B站视频一键总结

https://blog.sheep0.top/2025/11/18/【小巧思】B站视频一键总结/

作者

Sheep0

发布于

2025年11月18日

许可协议

【工具教程】uv包管理：torch安装与docker部署上一篇

【马原科普】当AI开始"说谎"：马克思主义视角下的大模型幻觉下一篇