
"智能不是记忆过去的所有细节,而是掌握生成未来的核心方程。"
"Intelligence is not about memorizing every detail of the past, but mastering the core equations that generate the future."
H2Q-MicroStream 是一个极具实验性的深度学习架构,旨在探索语言模型的物理动力学本质。与追求巨大参数量和超长上下文窗口的主流 Transformer 不同,本项目基于奥卡姆剃刀原则 (Occam's Razor) 和 **全息原理 (Holographic Principle)**,构建了一个极简、实时、且具有强物理约束的“思维内核”。
H2Q-MicroStream is a highly experimental deep learning architecture designed to explore the physical dynamics of language models. Unlike mainstream Transformers that chase massive parameter counts and infinite context windows, this project builds a minimalist, real-time, and physically constrained "Thinking Kernel" based on Occam's Razor and the Holographic Principle.
思考内化 vs. 语言表达 (Internalization vs. Expression):
状态保持 vs. 历史回溯 (State-based vs. Retrieval-based):
本质压缩 (Essence Compression):
引入四元数 (Quaternion) 代数,将注意力机制从标量积升级为四维时空干涉。
Moves attention from scalar products to 4D spacetime interference. Real parts represent energy/amplitude; Imaginary parts represent spin/phase, introducing nonlinear Phase Rotation Feedback to capture high-dimensional linguistic entanglement.
模型权重不是静态矩阵,而是通过 Structure Bank 动态生成的。我们强制将 Rank 限制为 8。
Weights are dynamically generated via a Structure Bank with a forced Rank of 8. This forces the model to abandon rote memorization and extract only the 8 most essential spacetime evolution patterns.
摒弃了 BPE Tokenizer (如 Tiktoken ),直接使用 Unicode (ASCII/UTF-8) 编码。
Abandons BPE Tokenizers for direct Unicode (ASCII/UTF-8) encoding. establishing a universal physical interface. Uses parallel streaming to simulate continuous reading flow rather than random slicing.
Simulates biological high-frequency impulse learning. With a micro-batch of 24 and continuous updates, the parameters undergo continuous differential evolution in the manifold space.
克隆仓库 / Clone the repository
git clone https://github.com/makai891124-prog/H2Q-Transformer.git cd H2Q-Transformer 安装依赖 / Install dependencies
pip install torch numpy requests 运行训练 / Run training 无需手动下载数据,脚本会自动下载 WikiText-2 数据集并开始训练。 No need to manually download data; the script will automatically download WikiText-2 and start training.
python main.py 在 main.py 中的 CONFIG 字典中调整参数。当前默认配置为 "H2Q-MicroStream" 模式:
COnFIG= { 'dim': 768, # 模型宽度 (GPT-2 Small level) 'fixed_rank': 8, # 核心参数:限制模型的"脑容量"以逼迫其思考 'seq_len': 128, # 微视界:只关注当下瞬间 'batch_size': 24, # 物理 Batch:极小,高频更新 'depth': 12, # 深度 'axiom_lambda': 0.1, # 正交性约束强度 # ... } 目前的 H2Q 模型是一个纯粹的思维内核。它的输出可能看起来像“乱码”或极其抽象的方言,这是因为它正在展示内部的原始状态流。
未来的开发计划包括:
The current H2Q model is a pure thinking kernel. Future plans include training a separate "Projector" to translate holographic states into human language, exploring multimodal byte streams, and edge deployment via high compression rates.
本项目采用 MIT License 开源。
感谢所有探索几何深度学习、SSM (State Space Models) 以及对 Transformer 架构进行反思的研究者们。本项目的灵感来源于全息原理、哈密顿力学以及人类认知的本质。
1 itechify PRO 不懂,看起来很高级,大受震撼 |
2 WuSiYu 18 小时 23 分钟前 code/readme is cheap, show me the paper/evaluation |
3 WuSiYu 17 小时 28 分钟前 简单看了下,似乎没啥人,那我先来锐评下你的几个核心点吧: 1. 四元数这个点,看起来是加了一个数学约束,做了个权重复用。直接的结果是能省一些参数量,而能不能有什么神奇的能力提升效果目前还无从得知(你不能只是形而上学的解释,需要有更有说服力的推导或者实验); 2. rank-8 这个点,看起来就是把 lora 的 adapter 直接当原始模型用了(或者有点深度可分离卷积那种意思),但能否有性能和参数量比的收益很难说。另外 rank=8 这种量级,我很怀疑这到底能不能 work (毕竟这又不是 lora 微调)。你说正常 LLM 学东西是背书,那有没有一种可能就是你的模型压根就学不会呢? 3. 直接不用分析器是开历史倒车,这会浪费很多模型的能力去做本不需要它做的事,跟你最求小参数量的目标是相反的; 4. trivial |
4 WuSiYu 17 小时 26 分钟前 typo: 分析器 -> 分词器 另外你这满满民科的用词真的很难让人看下去 |
5 CatCode 17 小时 2 分钟前 不用分词器用 UTF-8 这个不应该称为一个缺陷吧。现在已经有一些模型在尝试之间建立于 UTF-8 bytes 上。只是要多少参数和什么(细致的)框架来高效实现的问题 |
6 evegod OP @WuSiYu 训练代码是开源的,直接可以查看也可以运行一下看看效果,当然反向编译还没有做词表对其,我在尝试拉通模型核心能力极限,现在运行的数据集偏小。谢谢您的反馈,希望你有兴趣可以本地实验一下,消耗资源不多,我是用 4070ti super 跑的,实际使用显存控制不错。 |
7 evegod OP @WuSiYu 你说的对,code/readme is cheap, show me the paper/evaluation ,但是我相信你应该相信你自己亲眼所见的真实,其实你可以本地验证,这个架构是在本地训练的模型原型。 |
8 Pig930 16 小时 19 分钟前 有更详细的 paper 一类的东西可以学习下吗 |
9 Xs0ul 16 小时 14 分钟前 3 不就是远古时候的 Char-RNN |
10 evegod OP @Pig930 您好,还没有 paper ,在升级版本到新的更大数据集上训练看效果中,下个版本也会开源给大家看,新的版本会写 paper 和相关日志给大家参考。 |
11 evegod OP @Xs0ul 这是我个人开源项目哦,至少本地化可运行,挺有参考意义的,代码是完全开源的,里面算法基本是显示使用的,你可以用 gemini 或者 gpt 看一下代码数学逻辑构成,大致正确,但是现在 gemini 针对其的调参方向是错的建议。这算是面向 Gemini 编程的我的一个里程碑。我从本科计算机专业毕业都 12 年没有写代码了,ps 上学时也没咋写过代码,代码都是跑的 matlab ,我也挺高兴现在有这样好的工具能学习帮助我编程跑通程序训练,挺好玩的。 |
12 Xs0ul 15 小时 40 分钟前 看了你的 code 还有之前的帖子,你代码里只提到了 loss 下降,但这并不能说明模型有效,你至少得有些别的验证,比如 exact match ,edit distance ,perplexity 这些最基础的 metrics |
13 evegod OP @Xs0ul 您好,这个项目本身现在看来有些像一个内核程序雏形,下一步的计划不是用它来做静态 ai 训练,目标是用它做即时运算和自持型 ai 的核心程序,有新版本和新东西做完了会和大家好好说的。计划时间不会太长,大概一周时间吧。 |
14 WuSiYu 14 小时 46 分钟前 @evegod 有探索精神自己动手实践是好的,不过做学术不是这么搞的,AI 领域一天的新论文都有几百几千篇,你不能指望别人主动去花时间复现一个甚至还不完整的工作,还是先等你至少能放出一些效果或者评测结论后再说吧 |
16 c0xt30a 7 小时 37 分钟前 都四维时空干涉了,OP 先写一下波函数吧。 |
17 pandaex 2 小时 53 分钟前 via Android 咋说呢,先验知识得经过多个数据集评估检验,才能论证一个假设有效的组件有效,而不是说故事,最优化的启发性算法适合你,模型还是得一项一项的做消融对比实验,然后拉出来王对王比较。 |