
我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。
文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/
对于文末唐卡图的问题:
1 LZSZ 2022-11-24 12:21:46 +08:00 大大的 X 狗引起不适 |
2 eason1874 2022-11-24 12:29:02 +08:00 我的印象跟这数据差不多 真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的 |
3 hover 2022-11-24 12:30:23 +08:00 via Android 期待再分析下老外们的 xp |
4 Frankcox 2022-11-24 12:36:52 +08:00 guro 爱好者路过 |
5 hsfzxjy 2022-11-24 12:40:23 +08:00 via Android “眼镜”还是小众 |
6 Alexonx 2022-11-24 12:43:12 +08:00 好奇下这是啥网站...俺也想试试 |
| div class="fr"> 7 ArianX 2022-11-24 13:03:24 +08:00 妙啊 |
8 sleeepyy 2022-11-24 13:04:39 +08:00 只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢 |
9 KevinDo2 2022-11-24 13:05:06 +08:00 标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。 |
10 GeruzoniAnsasu 2022-11-24 13:08:41 +08:00 有点意思,期待一手各地区 /国家的对比数据 |
11 JustSong 2022-11-24 13:10:29 +08:00 via Android 图表很漂亮,请问用什么画的呀 |
12 LxExExl 2022-11-24 13:10:37 +08:00 楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。 |
13 cnrting 2022-11-24 13:11:04 +08:00 via iPhone 求最后一张原图 |
14 vigack OP @sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。 我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。 |
17 ninickck 2022-11-24 13:22:52 +08:00 瑞斯拜! |
18 kqij 2022-11-24 13:24:09 +08:00 身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频? |
20 HugoChao 2022-11-24 13:27:29 +08:00 好文共赏 |
21 vigack OP @kqij 我的思路是这样的: - 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况 - 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好 |
22 nu11ptr 2022-11-24 13:45:23 +08:00 最后一张人皮唐卡让我笑出声 要下地狱了 |
23 WOLFRAZOR 2022-11-24 13:52:49 +08:00 这都能研究,太厉害了 |
24 Williamwang 2022-11-24 13:53:01 +08:00 好奇,是 91 吗 |
25 quan01994 2022-11-24 13:53:44 +08:00 emmm,看来我的 XP 还是小众啊。 |
26 Felldeadbird 2022-11-24 14:06:59 +08:00 牛逼,这都可以进行数据分析。 |
27 cvooc 2022-11-24 14:16:02 +08:00 果然嗨丝才是王道啊, 占比那么高 |
28 zhangshine 2022-11-24 14:19:32 +08:00 不应该是视频发布者的 XP 吗? |
29 vigack OP @zhangshine 视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。 |
30 wanacry 2022-11-24 14:30:26 +08:00 via iPhone xp 是什么 |
32 walking50w 2022-11-24 14:41:09 +08:00 @vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。 |
34 lamesbond 2022-11-24 14:44:33 +08:00 黑丝高跟 |
35 vigack OP @silasamiseaf94 我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。 其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。 最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。 |
36 dzdh 2022-11-24 14:53:00 +08:00 我要最后一张图的高清大图 |
37 vigack OP @dzdh 你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。 原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。 |
38 marc2017 2022-11-24 15:05:21 +08:00 我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈 |
40 tf2 2022-11-24 15:14:44 +08:00 那个年龄,应该是默认年龄分类吧。。 |
41 AshenOneOrz 2022-11-24 15:20:37 +08:00 原来是老哥的博客,文章写的真不错 |
42 Tanf 2022-11-24 15:23:33 +08:00 有意思 |
43 zek 2022-11-24 15:25:13 +08:00 你分析的是哪个网站 |
45 shanyuhai123 2022-11-24 15:28:31 +08:00 感觉是最近的关键词,去年的还不是这样 :doge: |
46 vigack OP @shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。 不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。 现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了.... |
47 daweii 2022-11-24 15:49:46 +08:00 via iPhone 有意思。 楼主可以考虑把数据放出下载吗。 我也想分析一下。 |
48 PeterKim 2022-11-24 15:54:02 +08:00 数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。 |
49 xinyu98 2022-11-24 15:55:40 +08:00 有没有女性向的 |
50 jdhao 2022-11-24 16:02:00 +08:00 via Android 可视化工具用的哪个 |
51 hushs 2022-11-24 16:15:20 +08:00 有没有考虑做个小工具,我想看一下自己的数据。 |
52 hoky 2022-11-24 16:29:12 +08:00 有意思的尝试。 |
53 redtree 2022-11-24 16:33:57 +08:00 不错不错 |
54 gwbw 2022-11-24 16:39:51 +08:00 针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词 |
57 woscaizi 2022-11-24 16:55:13 +08:00 |
59 cnrting 2022-11-24 17:02:02 +08:00 via iPhone @vigack 不是要原版,是要你这里的 |
60 vigack OP |
61 libaokai 2022-11-24 17:33:06 +08:00 6 |
62 renhou 2022-11-24 17:38:19 +08:00 已硬,已收藏,好人一生平安 |
63 adoyle 2022-11-24 17:51:32 +08:00 从数据分析来研究女性主义,你是懂研究的。 > 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。 立意就很好。 看了你的博客其他文章,文笔不错。关注了。 |
64 Asimov01 2022-11-24 17:55:47 +08:00 有趣有趣,已关注 OP 博客 |
65 JimmyRogue 2022-11-24 18:04:23 +08:00 有意思,感谢老哥 |
66 advicebullet 2022-11-24 18:12:56 +08:00 [露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证 根据画像写的标题,找人去拍一个。 |
67 |
68 chanlk 2022-11-24 18:20:29 +08:00 唐卡来张高清大图啊 ( ̄ ̄)/ |
69 plp 2022-11-24 19:35:32 +08:00 市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强 |
70 jiujiutang 2022-11-24 19:57:28 +08:00 最后的图片高清大图吗 |
71 222aa 2022-11-24 20:50:43 +08:00 老哥看了你的博客,你用的是什么系统哇?看着很舒服哦 |
72 gerorim 2022-11-24 21:04:45 +08:00 老哥原来的点云图没有删掉,还是 CDN 有缓存? 原来的点云符合期望(指的是概率上的数学期望) https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png |
73 vigack OP @gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。 确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。 |