yokon's blog

对C站18万AI绘画的图片数据分析后

2023.04.13

项目源码:https://github.com/yokonsan/civitai-analysis

$ find ./data -type f -name "*.txt" -print0 | xargs -0 wc -l | tail -1

181384 total

抓取 C 站 181384 张 SFW 图片数据抓取后,我发现:

  • 玩家最喜欢的模型是chilloutmix_NiPrunedFp32Fix[fc2511737a]
  • 玩家最常用的正向提示词是masterpiecebest quality1girlsolo
  • 玩家最常用的反向提示词是blurrylow qualitybad anatomy
  • 玩家生成图片尺寸最多的是512x768,其次是默认的512x512
  • 玩家采样步数使用最多的是20
  • 玩家采样器使用最多的是DPM++ 2M Karras,其次是默认的Euler a
  • 玩家无分类指导规模值使用最多的是7

另外,我粗略的统计了指令中出现girlboy的次数,然后出现girl 64251 次,出现boy 12053 次,只占了 6.4%。dddd xdm。

数据抓取

下载项目后,执行python main.py可抓取 C 站数据。另外data文件夹下是我已经下载后的数据。数据格式参考_typing.py文件。

我只写了下载图片 meta 信息,并没有对图片进行下载。需要下载图片的可自行编辑。

数据分析

数据分析部分,就是单纯的统计每一项的次数,没有其他分析。代码参考analysis.py

本次分析的数据都是SFW的数据,不包括NSFW。至于两个是什么区别呢,通俗易懂的解释是:

  • SFW是适合在工作场所浏览的内容;
  • NSFW是平台不让说的内容

Model

top10_model.png chilloutmix_NiPrunedFp32Fix主要是针对亚洲网红脸训练的真人模型。也是我个人经常用的模型。 deliberate 模型提供了创建任何你想要的东西的能力。

Sampler

top10_sampler.png

DPM++ 2M Karras 是用的最多的采样器。新手我更推荐Euler a

Steps

top10_steps.png 20 是默认的值,这个值一般都是设的 20-30 之间。更大的迭代步数可能会有更好的生成效果,更多细节和锐化,但是也会导致生成时间变长。

Size

top10_size.png 尺寸太宽时,图中可能会出现多个主体。一般都是用的小尺寸+高清修复。更大的尺寸也需要更多的显存。

CfgScale

top10_cfg_scale.png cfg scale  值越高,提示词对最终生成结果的影响越大,契合度越高。一般都是 6.5-8 之间。

Prompt

top10_prompt.png 正向指令前两个都是画质相关的,1girl第三是我没有想到的。1boy太惨淡了。。。

top10_negative_prompt.png

提示词词云

output.png