项目源码:https://github.com/yokonsan/civitai-analysis
$ find ./data -type f -name "*.txt" -print0 | xargs -0 wc -l | tail -1
181384 total
抓取 C 站 181384 张 SFW
图片数据抓取后,我发现:
- 玩家最喜欢的模型是
chilloutmix_NiPrunedFp32Fix
[fc2511737a
] - 玩家最常用的正向提示词是
masterpiece
、best quality
、1girl
、solo
- 玩家最常用的反向提示词是
blurry
、low quality
、bad anatomy
- 玩家生成图片尺寸最多的是
512x768
,其次是默认的512x512
- 玩家采样步数使用最多的是
20
- 玩家采样器使用最多的是
DPM++ 2M Karras
,其次是默认的Euler a
- 玩家无分类指导规模值使用最多的是
7
另外,我粗略的统计了指令中出现girl
和boy
的次数,然后出现girl
64251 次,出现boy
12053 次,只占了 6.4%。dddd xdm。
数据抓取
下载项目后,执行python main.py
可抓取 C 站数据。另外data
文件夹下是我已经下载后的数据。数据格式参考_typing.py
文件。
我只写了下载图片 meta 信息,并没有对图片进行下载。需要下载图片的可自行编辑。
数据分析
数据分析部分,就是单纯的统计每一项的次数,没有其他分析。代码参考analysis.py
。
本次分析的数据都是SFW
的数据,不包括NSFW
。至于两个是什么区别呢,通俗易懂的解释是:
SFW
是适合在工作场所浏览的内容;NSFW
是平台不让说的内容
Model
chilloutmix_NiPrunedFp32Fix主要是针对亚洲网红脸训练的真人模型。也是我个人经常用的模型。 deliberate 模型提供了创建任何你想要的东西的能力。
Sampler
DPM++ 2M Karras 是用的最多的采样器。新手我更推荐Euler a
。
Steps
20 是默认的值,这个值一般都是设的 20-30 之间。更大的迭代步数可能会有更好的生成效果,更多细节和锐化,但是也会导致生成时间变长。
Size
尺寸太宽时,图中可能会出现多个主体。一般都是用的小尺寸+高清修复。更大的尺寸也需要更多的显存。
CfgScale
cfg scale
值越高,提示词对最终生成结果的影响越大,契合度越高。一般都是 6.5-8 之间。
Prompt
正向指令前两个都是画质相关的,1girl
第三是我没有想到的。1boy
太惨淡了。。。