【小巧思】B站视频一键总结

1. 前言

最近做了一个事情,需求大致是输入一个BVID,经过一段时间(约4-5min),输出一张该视频的总结图,目的是绘声绘色地总结视频内容。

例如,一个关于模型训练的视频,只需要输入bv号BV1aG1xBgEen原视频直达链接,就可以输出以下图片

知识视频总结示例

感觉这个workflow非常适合知识类内容的总结,相比较于纯文字,对于读者来说更生动了。

除了这种知识性的视频总结,还让朋友尝试总结了其他类型的视频,试了以下鬼畜和漫谈。

异世界舅舅的某个漫谈总结视频直达链接

漫谈视频总结示例

还有鬼畜视频总结,视频直达链接

鬼畜视频总结示例

虽然存在一些问题,总体来说还是很有意思的。

2. workflow思路

大致思路就是:得到视频字幕–>生成总结文章–>转化成图片

具体而言,我经过一定探索和尝试最终总结的详细workflow就是 利用python的bilibili_api库获取爬取字幕–>用LLM总结成文章–>用LLM生成html文件–>利用python的playwright库预览html文件生成最终截图

利用这套方案的缺点如下:

(1)视频最原始的消息是由b站爬取字幕而来,注定了无法处理图像信息。所有的总结都只能根据字幕文本而来,对于静音视频或者过于抽象的视频,总结效果会很差。

(2)目前这套方法只能针对视频本来就有字幕的情况,如果视频不带有字幕选项则无法进行总结;现在B站大部分视频都有AI字幕,AI字幕对部分词语的识别会出错,可能造成总结上理解错误或者内容错误

(3)没有开放用户自定义提示词,目前只有一套提示词,可能会导致总结角度并不满足用户需要。例如前面提到的漫谈总结,最初的需求想要总结的是剧情,目标是速通这部番,而固定提示词可能会导致总结的方向不准;目前的AI提示词没有禁止大模型的自主发挥,可能会总结一些原视频中没有出现的观点。

(4)使用bilibili_api库的方式爬取字幕,要定期手动更新一些”用户标志“,例如SESSDATA,BILI_JCT等。这些标志容易随时间过期,目前这个更新没实现自动化。

有字幕的视频

3. 实现上的问题

主要是部署上的问题,部署到linux服务器上出现好多奇奇怪怪的问题。包括但不限于字体下载问题(html中使用了一些emoji,在linux下的playwright可能预览出错)、playwright预览边框颜色rgb变化过大(最后做图像裁剪的时候容易失效)、阿里云服务器外网连接问题等等。windows上没问题,部署上去全是问题。


【小巧思】B站视频一键总结
https://blog.sheep0.top/2025/11/18/【小巧思】B站视频一键总结/
作者
Sheep0
发布于
2025年11月18日
许可协议