项目源码:https://github.com/yokonsan/civitai-analysis
$ find ./data -type f -name "*.txt" -print0 | xargs -0 wc -l | tail -1
181384 total
抓取 C 站 181384 张 SFW 图片数据抓取后,我发现:
- 玩家最喜欢的模型是
chilloutmix_NiPrunedFp32Fix[fc2511737a] - 玩家最常用的正向提示词是
masterpiece、best quality、1girl、solo - 玩家最常用的反向提示词是
blurry、low quality、bad anatomy - 玩家生成图片尺寸最多的是
512x768,其次是默认的512x512 - 玩家采样步数使用最多的是
20 - 玩家采样器使用最多的是
DPM++ 2M Karras,其次是默认的Euler a - 玩家无分类指导规模值使用最多的是
7
另外,我粗略的统计了指令中出现girl和boy的次数,然后出现girl 64251 次,出现boy 12053 次,只占了 6.4%。dddd xdm。
数据抓取
下载项目后,执行python main.py可抓取 C 站数据。另外data文件夹下是我已经下载后的数据。数据格式参考_typing.py文件。
我只写了下载图片 meta 信息,并没有对图片进行下载。需要下载图片的可自行编辑。
数据分析
数据分析部分,就是单纯的统计每一项的次数,没有其他分析。代码参考analysis.py。
本次分析的数据都是SFW的数据,不包括NSFW。至于两个是什么区别呢,通俗易懂的解释是:
SFW是适合在工作场所浏览的内容;NSFW是平台不让说的内容
Model
chilloutmix_NiPrunedFp32Fix主要是针对亚洲网红脸训练的真人模型。也是我个人经常用的模型。
deliberate 模型提供了创建任何你想要的东西的能力。
Sampler

DPM++ 2M Karras 是用的最多的采样器。新手我更推荐Euler a。
Steps
20 是默认的值,这个值一般都是设的 20-30 之间。更大的迭代步数可能会有更好的生成效果,更多细节和锐化,但是也会导致生成时间变长。
Size
尺寸太宽时,图中可能会出现多个主体。一般都是用的小尺寸+高清修复。更大的尺寸也需要更多的显存。
CfgScale
cfg scale 值越高,提示词对最终生成结果的影响越大,契合度越高。一般都是 6.5-8 之间。
Prompt
正向指令前两个都是画质相关的,1girl第三是我没有想到的。1boy太惨淡了。。。

提示词词云
