通过视频标题分析国人 xp - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vigack
V2EX    分享发现

通过视频标题分析国人 xp

  vigack 2022-11-24 12:14:35 +08:00 9927 次点击
这是一个创建于 1126 天前的主题,其中的信息可能已经有所发展或是发生改变。

我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。

文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/

第 1 条附言    2022-11-24 18:56:13 +08:00

对于文末唐卡图的问题:

  • 文章里就是原图啊!并没有经过压缩,因为图片生成的过程中就已经进行了模糊化,不然这张图起码 500MB……
LZSZ
    1
LZSZ  
   2022-11-24 12:21:46 +08:00   2
大大的 X 狗引起不适
eason1874
    2
eason1874  
   2022-11-24 12:29:02 +08:00
我的印象跟这数据差不多

真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的
hover
    3
hover  
   2022-11-24 12:30:23 +08:00 via Android
期待再分析下老外们的 xp
Frankcox
    4
Frankcox  
   2022-11-24 12:36:52 +08:00   1
guro 爱好者路过
hsfzxjy
    5
hsfzxjy  
   2022-11-24 12:40:23 +08:00 via Android
“眼镜”还是小众
Alexonx
    6
Alexonx  
   2022-11-24 12:43:12 +08:00
好奇下这是啥网站...俺也想试试
ArianX div class="fr">     7
ArianX  
   2022-11-24 13:03:24 +08:00
妙啊
sleeepyy
    8
sleeepyy  
   2022-11-24 13:04:39 +08:00
只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
KevinDo2
    9
KevinDo2  
   2022-11-24 13:05:06 +08:00
标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
GeruzoniAnsasu
    10
GeruzoniAnsasu  
   2022-11-24 13:08:41 +08:00
有点意思,期待一手各地区 /国家的对比数据
JustSong
    11
JustSong  
   2022-11-24 13:10:29 +08:00 via Android
图表很漂亮,请问用什么画的呀
LxExExl
    12
LxExExl  
   2022-11-24 13:10:37 +08:00   2
楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
cnrting
    13
cnrting  
   2022-11-24 13:11:04 +08:00 via iPhone
求最后一张原图
vigack
    14
vigack  
OP
   2022-11-24 13:16:14 +08:00
@sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。
vigack
    15
vigack  
OP
   2022-11-24 13:18:41 +08:00   2
@JustSong

- 图表用的是 google sheets ,可以自己配置一些美化选项
- 词云用的 python 的 wordcloud 包
- 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308
vigack
    16
vigack  
OP
   2022-11-24 13:19:07 +08:00
@cnrting 搜索 西藏唐卡,排 google 第一位的维基图片就是
ninickck
    17
ninickck  
   2022-11-24 13:22:52 +08:00
瑞斯拜!
kqij
    18
kqij  
   2022-11-24 13:24:09 +08:00
身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
vigack
    19
vigack  
OP
   2022-11-24 13:24:56 +08:00
@KevinDo2 所以标题其实是和观众的 xp 强关联的
HugoChao
    20
HugoChao  
   2022-11-24 13:27:29 +08:00
好文共赏
vigack
    21
vigack  
OP
   2022-11-24 13:27:42 +08:00   2
@kqij
我的思路是这样的:
- 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况
- 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好
nu11ptr
    22
nu11ptr  
   2022-11-24 13:45:23 +08:00   3
最后一张人皮唐卡让我笑出声 要下地狱了
WOLFRAZOR
    23
WOLFRAZOR  
   2022-11-24 13:52:49 +08:00
这都能研究,太厉害了
Williamwang
    24
Williamwang  
   2022-11-24 13:53:01 +08:00
好奇,是 91 吗
quan01994
    25
quan01994  
   2022-11-24 13:53:44 +08:00
emmm,看来我的 XP 还是小众啊。
Felldeadbird
    26
Felldeadbird  
   2022-11-24 14:06:59 +08:00
牛逼,这都可以进行数据分析。
cvooc
    27
cvooc  
   2022-11-24 14:16:02 +08:00
果然嗨丝才是王道啊, 占比那么高
zhangshine
    28
zhangshine  
   2022-11-24 14:19:32 +08:00
不应该是视频发布者的 XP 吗?
vigack
    29
vigack  
OP
   2022-11-24 14:29:58 +08:00   2
@zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。
wanacry
    30
wanacry  
   2022-11-24 14:30:26 +08:00 via iPhone
xp 是什么
vigack
    31
vigack  
OP
   2022-11-24 14:33:19 +08:00
@quan01994 关键词的集合是我拍脑瓜想出来的,因此可能遗漏了一些我不知道的 xp
walking50w
    32
walking50w  
   2022-11-24 14:41:09 +08:00
@vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
EthanCYQ
    33
EthanCYQ  
   2022-11-24 14:41:59 +08:00
@wanacry windows xp (
lamesbond
    34
lamesbond  
   2022-11-24 14:44:33 +08:00
黑丝高跟
vigack
    35
vigack  
OP
   2022-11-24 14:52:24 +08:00
@silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。

其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。

最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。
dzdh
    36
dzdh  
   2022-11-24 14:53:00 +08:00
我要最后一张图的高清大图
vigack
    37
vigack  
OP
   2022-11-24 14:57:38 +08:00
@dzdh
你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。

原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。
marc2017
    38
marc2017  
   2022-11-24 15:05:21 +08:00
我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
vigack
    39
vigack  
OP
   2022-11-24 15:12:00 +08:00
@marc2017 中文圈貌似没有比较大的视频网站,推上比较多,我常常的关键词大概是直男、体育生、白袜(什么鬼)
tf2
    40
tf2  
   2022-11-24 15:14:44 +08:00
那个年龄,应该是默认年龄分类吧。。
AshenOneOrz
    41
AshenOneOrz  
   2022-11-24 15:20:37 +08:00
原来是老哥的博客,文章写的真不错
Tanf
    42
Tanf  
   2022-11-24 15:23:33 +08:00
有意思
zek
    43
zek  
   2022-11-24 15:25:13 +08:00
你分析的是哪个网站
vigack
    44
vigack  
OP
   
@zek 虽然不能明说,不过中文圈应该就那一个“知名网站”吧……
shanyuhai123
    45
shanyuhai123  
   2022-11-24 15:28:31 +08:00
感觉是最近的关键词,去年的还不是这样 :doge:
vigack
    46
vigack  
OP
   2022-11-24 15:46:52 +08:00
@shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。

现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了....
daweii
    47
daweii  
   2022-11-24 15:49:46 +08:00 via iPhone
有意思。
楼主可以考虑把数据放出下载吗。
我也想分析一下。
PeterKim
    48
PeterKim  
   2022-11-24 15:54:02 +08:00
数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
xinyu98
    49
xinyu98  
   2022-11-24 15:55:40 +08:00
有没有女性向的
jdhao
    50
jdhao  
   2022-11-24 16:02:00 +08:00 via Android
可视化工具用的哪个
hushs
    51
hushs  
   2022-11-24 16:15:20 +08:00
有没有考虑做个小工具,我想看一下自己的数据。
hoky
    52
hoky  
   2022-11-24 16:29:12 +08:00
有意思的尝试。
redtree
    53
redtree  
   2022-11-24 16:33:57 +08:00
不错不错
gwbw
    54
gwbw  
   2022-11-24 16:39:51 +08:00
针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
vigack
    55
vigack  
OP
   2022-11-24 16:43:27 +08:00
@gwbw
我尝试过通过词性进行分词,但是效果不好,还得自己一个个地添加关键词,如果有这方面现成的词典的话就好了。
vigack
    56
vigack  
OP
   2022-11-24 16:44:15 +08:00
@LZSZ 考虑到会引起不适,所以我想了想把那张图删掉了
woscaizi
    57
woscaizi  
   2022-11-24 16:55:13 +08:00
woscaizi
    58
woscaizi  
   2022-11-24 16:55:45 +08:00
@woscaizi 我来分享一下之前爬取的一些标题
cnrting
    59
cnrting  
   2022-11-24 17:02:02 +08:00 via iPhone
@vigack 不是要原版,是要你这里的
vigack
    60
vigack  
OP
   2022-11-24 17:20:04 +08:00
@cnrting
文章里就是原图啊,没有经过压缩,右键另存为就可以了。
不过你可能要的是和 #36 一样的图,我已经在 #37 里回答了……
libaokai
    61
libaokai  
   2022-11-24 17:33:06 +08:00
6
renhou
    62
renhou  
   2022-11-24 17:38:19 +08:00
已硬,已收藏,好人一生平安
adoyle
    63
adoyle  
   2022-11-24 17:51:32 +08:00
从数据分析来研究女性主义,你是懂研究的。

> 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。

立意就很好。

看了你的博客其他文章,文笔不错。关注了。
Asimov01
    64
Asimov01  
   2022-11-24 17:55:47 +08:00
有趣有趣,已关注 OP 博客
JimmyRogue
    65
JimmyRogue  
   2022-11-24 18:04:23 +08:00
有意思,感谢老哥
advicebullet
    66
advicebullet  
   2022-11-24 18:12:56 +08:00   1
[露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证

根据画像写的标题,找人去拍一个。
Sivan
    67
Sivan  
   2022-11-24 18:19:49 +08:00   1
@advicebullet 你是懂 SEO 的
chanlk
    68
chanlk  
   2022-11-24 18:20:29 +08:00
唐卡来张高清大图啊 ( ̄ ̄)/
plp
    69
plp  
   2022-11-24 19:35:32 +08:00
市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强
jiujiutang
    70
jiujiutang  
   2022-11-24 19:57:28 +08:00
最后的图片高清大图吗
222aa
    71
222aa  
   2022-11-24 20:50:43 +08:00
老哥看了你的博客,你用的是什么系统哇?看着很舒服哦
gerorim
    72
gerorim  
   2022-11-24 21:04:45 +08:00
老哥原来的点云图没有删掉,还是 CDN 有缓存?
原来的点云符合期望(指的是概率上的数学期望)
https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png
vigack
    73
vigack  
OP
   2022-11-24 21:17:35 +08:00
@gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。
确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。
vigack
    74
vigack  
OP
   2022-11-24 21:21:13 +08:00
vigack
    76
vigack  
OP
   2022-11-24 22:31:22 +08:00
CRight
    77
CRight  
   2022-11-25 00:14:02 +08:00 via iPhone
词云替换后了就不真实了,
222aa
    78
222aa  
   2022-11-25 08:45:43 +08:00
@vigack 不是博客主题哇,是你用的什么操作系统。看博客无意间看到了您的系统 ui 看着挺舒服的。
Mrxx
    79
Mrxx  
   2022-11-25 08:51:06 +08:00
窥一斑而知全豹纹内衣
vigack
    80
vigack  
OP
   2022-11-25 09:13:35 +08:00
@222aa

桌面是 gnome ,系统是 fedora
labubu
    81
labubu  
   2022-11-25 09:21:20 +08:00
@advicebullet 你是懂大数据的
2NUT
    82
2NUT  
   2022-11-25 10:48:59 +08:00
社科专业 再深入 扩充下 其实可以作为毕业论文了
abirdcanfly
    83
abirdcanfly  
   2022-11-25 10:54:33 +08:00
大佬的视角偏颇太大! 这大概只是男性用户的数据, 并非国人, 请注意中国并非只有男人, 女人也有 xy; 本人也是男性, 只是指出不同观点, 并无冒犯之意
222aa
    84
222aa  
   2022-11-25 11:16:01 +08:00
@vigack 好勒
vigack
    85
vigack  
OP
   2022-11-25 11:22:58 +08:00
@abirdcanfly
因为“国男”已经成了带有情绪化的词了,所以这里我用的是“国人”,不过这篇分析确实特指男性。
另外在中文圈,就我所知,还从来没见过女性向的视频;分析女性 xp 也是个很有趣的主题,可惜我目前并没有发现什么值得研究的数据来源。
8XIQz5SCHX1U6c7s
    86
8XIQz5SCHX1U6c7s  
   2022-11-25 11:58:07 +08:00
好活
NESeeker
    87
NESeeker  
   2022-11-25 12:03:01 +08:00 via Android
操千曲而后晓声
观千剑而后识器
楼主好活,当代《文心雕龙》
hanbing135
    88
hanbing135  
   2022-11-25 12:22:43 +08:00 via iPhone
感觉 lz 可以进行视频内容检测做深度分析
mmdsun
    89
mmdsun  
   2022-11-25 13:18:12 +08:00 via iPhone
furry 控路过。
这让我想起前段时间我的圈内都再转 涂满你 xp 的小瓶子的调查卡片。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4848 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 44ms UTC 09:37 PVG 17:37 LAX 01:37 JFK 04:37
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86