用视觉大语言模型检索表情包

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 122 天前的主题，其中的信息可能已经有所发展或是发生改变。

脑子一抽想出来的 idea 。好奇大模型对各种 meme 能理解到什么地步。后面加入语义检索就变成有用的 meme 检索工具了。前端是 vibe coding 的，后端是 Rust 手写的，VLM 提示词是瞎写的，钱包余额是烧光了的。

欢迎各位玩玩，第一次搜索时加载 VectorChord 的缓存可能有点慢。

11 条回复 2025-08-19 00:16:34 +08:00

est

122 天前

好帖没人回啊。

heimoshuiyu

122 天前

@est 可能是睡觉了吧，明天周一上班摸鱼应该就有人了（希望（

beyondex

122 天前

好想法

5261

121 天前

@heimoshuiyu 这个模型是提供表情图片还是图片对应的文字喂给大型模呢? 选视觉学习模式还是文本学习模型呢

heimoshuiyu

121 天前

@5261 提供的是图片，图片喂给视觉大语言模型 VLM 模型，模型再吐出文字。然后用 embedding 模型做文字的语义搜索。每个图片下方还有使用 CLIP 和 embedding 在视觉和文字语义上推荐的相似图片

5261

121 天前

@heimoshuiyu 好的,准备用大量靓妹图片做模型,然后根据关键字搜索那啥

heimoshuiyu

121 天前

@5261 牛的

beyondex

121 天前

话说 VectorChord 说他是 pgvector 的继任者，是指的它自己组织目录下的那个 pgvector.rs https://github.com/tensorchord/pgvecto.rs
还是这个 pgvector https://github.com/pgvector/pgvector ？

这俩名字重名了。。。

beyondex

121 天前

@5261 有现成别人做好的产品，图片本地计算不需要云：归海桌面&图片搜索

5261

121 天前

heimoshuiyu

121 天前