宣传一下我的开源神经网络训练架构,请大家多多批评。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
evegod
V2EX    分享创造

宣传一下我的开源神经网络训练架构,请大家多多批评。

  •  
  •   evegod 20 小时 1 分钟前 980 次点击

    H2Q-MicroStream: Holographic Hamiltonian Quaternion Transformer

    "智能不是记忆过去的所有细节,而是掌握生成未来的核心方程。"

    "Intelligence is not about memorizing every detail of the past, but mastering the core equations that generate the future."

    License: MIT PyTorch Status


    项目简介 / Introduction

    H2Q-MicroStream 是一个极具实验性的深度学习架构,旨在探索语言模型的物理动力学本质。与追求巨大参数量和超长上下文窗口的主流 Transformer 不同,本项目基于奥卡姆剃刀原则 (Occam's Razor) 和 **全息原理 (Holographic Principle)**,构建了一个极简、实时、且具有强物理约束的“思维内核”。

    H2Q-MicroStream is a highly experimental deep learning architecture designed to explore the physical dynamics of language models. Unlike mainstream Transformers that chase massive parameter counts and infinite context windows, this project builds a minimalist, real-time, and physically constrained "Thinking Kernel" based on Occam's Razor and the Holographic Principle.

    核心哲学 / Core Philosophy

    1. 思考内化 vs. 语言表达 (Internalization vs. Expression):

      • 我们认为,现有的 LLM 花费了太多算力去学习“如何像人一样说话”(语法糖),而忽略了“如何构建世界模型”(核心逻辑)。
      • H2Q 旨在构建一个高维全向的思维核心。它的中间状态可能人类难以直接理解(类似于脑电波),但它包含了对信息本质的拓扑映射。
      • We believe current LLMs spend too much compute on "speaking like a human" (syntax) rather than "modeling the world" (core logic). H2Q aims to build a high-dimensional, omnidirectional thinking kernel.
    2. 状态保持 vs. 历史回溯 (State-based vs. Retrieval-based):

      • 人类没有 128k 的上下文窗口。我们靠的是核心状态 (State) 的实时演化。
      • 本架构放弃了对历史数据的无限 Attention ,转而追求在极短视界( Micro-Horizon )内的哈密顿动力学演化
      • Humans don't utilize 128k context windows; we rely on the real-time evolution of a Core State. This architecture abandons infinite attention on history in favor of Hamiltonian dynamic evolution within a Micro-Horizon.
    3. 本质压缩 (Essence Compression):

      • 如果一个规律不能用极少的基底( Rank 8 )解释,那就是在死记硬背。
      • If a pattern cannot be explained with a minimal basis (Rank 8), it is rote memorization, not learning.

    关键技术特性 / Key Technical Features

    1. 四元数时空注意力 (Quaternion Spacetime Attention)

    引入四元数 (Quaternion) 代数,将注意力机制从标量积升级为四维时空干涉

    • 实部 (Real Part): 代表能量/幅度,决定注意力的强度。
    • 虚部 (Imaginary Part): 代表自旋/相位,引入非线性的**相位旋转反馈 (Phase Rotation)**。
    • 这使得模型能够捕捉语言中的“纠缠”和“反讽”等高维特征。

    Moves attention from scalar products to 4D spacetime interference. Real parts represent energy/amplitude; Imaginary parts represent spin/phase, introducing nonlinear Phase Rotation Feedback to capture high-dimensional linguistic entanglement.

    2. Rank-8 本质约束 (Rank-8 Essential Constraint)

    模型权重不是静态矩阵,而是通过 Structure Bank 动态生成的。我们强制将 Rank 限制为 8

    • 这逼迫模型放弃“背书”,只能提取最核心的 8 种时空演化规律。
    • 这也极大地降低了计算消耗,实现了参数的“全息折叠”。

    Weights are dynamically generated via a Structure Bank with a forced Rank of 8. This forces the model to abandon rote memorization and extract only the 8 most essential spacetime evolution patterns.

    3. Unicode 流式动力学 (Unicode Stream Dynamics)

    摒弃了 BPE Tokenizer (如 Tiktoken ),直接使用 Unicode (ASCII/UTF-8) 编码。

    • 拒绝“方言”:建立通用的底层物理接口,让模型直接处理字节流。
    • 并行流训练:模拟多路并行的连续阅读体验,而非随机切片。

    Abandons BPE Tokenizers for direct Unicode (ASCII/UTF-8) encoding. establishing a universal physical interface. Uses parallel streaming to simulate continuous reading flow rather than random slicing.

    4. 微批次高频更新 (Micro-Batch High-Freq Update)

    • Batch Size = 24: 模拟极低容量的短期记忆。
    • No Gradient Accumulation: 每看一眼数据就更新一次参数。
    • 这模拟了生物神经元的高频脉冲学习,使参数在流形空间中进行连续的微分演化。

    Simulates biological high-frequency impulse learning. With a micro-batch of 24 and continuous updates, the parameters undergo continuous differential evolution in the manifold space.


    安装与运行 / Installation & Usage

    环境要求 / Requirements

    • Python 3.8+
    • PyTorch 2.0+ (CUDA support recommended for TF32 acceleration)
    • NVIDIA GPU (Optimized for Ampere/Ada architectures like RTX 3090/4090/4070Ti)

    快速开始 / Quick Start

    1. 克隆仓库 / Clone the repository

      git clone https://github.com/makai891124-prog/H2Q-Transformer.git cd H2Q-Transformer 
    2. 安装依赖 / Install dependencies

      pip install torch numpy requests 
    3. 运行训练 / Run training 无需手动下载数据,脚本会自动下载 WikiText-2 数据集并开始训练。 No need to manually download data; the script will automatically download WikiText-2 and start training.

      python main.py 

    配置说明 / Configuration

    main.py 中的 CONFIG 字典中调整参数。当前默认配置为 "H2Q-MicroStream" 模式:

    COnFIG= { 'dim': 768, # 模型宽度 (GPT-2 Small level) 'fixed_rank': 8, # 核心参数:限制模型的"脑容量"以逼迫其思考 'seq_len': 128, # 微视界:只关注当下瞬间 'batch_size': 24, # 物理 Batch:极小,高频更新 'depth': 12, # 深度 'axiom_lambda': 0.1, # 正交性约束强度 # ... } 

    展望与未来 / Future Roadmap

    目前的 H2Q 模型是一个纯粹的思维内核。它的输出可能看起来像“乱码”或极其抽象的方言,这是因为它正在展示内部的原始状态流

    未来的开发计划包括:

    1. 解码器挂载 (Projector): 训练一个独立的“翻译器”模块,将 H2Q 的全息状态映射回人类自然语言。
    2. 多模态流 (Multimodal Stream): 由于采用 Unicode/Byte 接口,尝试直接输入音频或图像字节流。
    3. 边缘侧部署 (Edge Deployment): 利用 Rank-8 的极高压缩率,尝试在移动端运行全息内核。

    The current H2Q model is a pure thinking kernel. Future plans include training a separate "Projector" to translate holographic states into human language, exploring multimodal byte streams, and edge deployment via high compression rates.


    许可证 / License

    本项目采用 MIT License 开源。


    致谢 / Acknowledgements

    感谢所有探索几何深度学习、SSM (State Space Models) 以及对 Transformer 架构进行反思的研究者们。本项目的灵感来源于全息原理、哈密顿力学以及人类认知的本质。

    18 条回复    2025-12-19 14:01:13 +08:00
    itechify
        1
    itechify  
    PRO
       19 小时 10 分钟前
    不懂,看起来很高级,大受震撼
    WuSiYu
        2
    WuSiYu  
       18 小时 23 分钟前
    code/readme is cheap, show me the paper/evaluation
    WuSiYu
        3
    WuSiYu  
       17 小时 28 分钟前   1
    简单看了下,似乎没啥人,那我先来锐评下你的几个核心点吧:

    1. 四元数这个点,看起来是加了一个数学约束,做了个权重复用。直接的结果是能省一些参数量,而能不能有什么神奇的能力提升效果目前还无从得知(你不能只是形而上学的解释,需要有更有说服力的推导或者实验);

    2. rank-8 这个点,看起来就是把 lora 的 adapter 直接当原始模型用了(或者有点深度可分离卷积那种意思),但能否有性能和参数量比的收益很难说。另外 rank=8 这种量级,我很怀疑这到底能不能 work (毕竟这又不是 lora 微调)。你说正常 LLM 学东西是背书,那有没有一种可能就是你的模型压根就学不会呢?

    3. 直接不用分析器是开历史倒车,这会浪费很多模型的能力去做本不需要它做的事,跟你最求小参数量的目标是相反的;

    4. trivial
    WuSiYu
        4
    WuSiYu  
       17 小时 26 分钟前
    typo: 分析器 -> 分词器

    另外你这满满民科的用词真的很难让人看下去
    CatCode
        5
    CatCode  
       17 小时 2 分钟前
    不用分词器用 UTF-8 这个不应该称为一个缺陷吧。现在已经有一些模型在尝试之间建立于 UTF-8 bytes 上。只是要多少参数和什么(细致的)框架来高效实现的问题
    evegod
        6
    evegod  
    OP
       16 小时 50 分钟前
    @WuSiYu 训练代码是开源的,直接可以查看也可以运行一下看看效果,当然反向编译还没有做词表对其,我在尝试拉通模型核心能力极限,现在运行的数据集偏小。谢谢您的反馈,希望你有兴趣可以本地实验一下,消耗资源不多,我是用 4070ti super 跑的,实际使用显存控制不错。
    evegod
        7
    evegod  
    OP
       16 小时 46 分钟前
    @WuSiYu 你说的对,code/readme is cheap, show me the paper/evaluation ,但是我相信你应该相信你自己亲眼所见的真实,其实你可以本地验证,这个架构是在本地训练的模型原型。
    Pig930
        8
    Pig930  
       16 小时 19 分钟前
    有更详细的 paper 一类的东西可以学习下吗
    Xs0ul
        9
    Xs0ul  
       16 小时 14 分钟前
    3 不就是远古时候的 Char-RNN
    evegod
        10
    evegod  
    OP
       15 小时 51 分钟前
    @Pig930 您好,还没有 paper ,在升级版本到新的更大数据集上训练看效果中,下个版本也会开源给大家看,新的版本会写 paper 和相关日志给大家参考。
    evegod
        11
    evegod  
    OP
       15 小时 47 分钟前
    @Xs0ul 这是我个人开源项目哦,至少本地化可运行,挺有参考意义的,代码是完全开源的,里面算法基本是显示使用的,你可以用 gemini 或者 gpt 看一下代码数学逻辑构成,大致正确,但是现在 gemini 针对其的调参方向是错的建议。这算是面向 Gemini 编程的我的一个里程碑。我从本科计算机专业毕业都 12 年没有写代码了,ps 上学时也没咋写过代码,代码都是跑的 matlab ,我也挺高兴现在有这样好的工具能学习帮助我编程跑通程序训练,挺好玩的。
    Xs0ul
        12
    Xs0ul  
       15 小时 40 分钟前
    看了你的 code 还有之前的帖子,你代码里只提到了 loss 下降,但这并不能说明模型有效,你至少得有些别的验证,比如 exact match ,edit distance ,perplexity 这些最基础的 metrics
    evegod
        13
    evegod  
    OP
       15 小时 22 分钟前
    @Xs0ul 您好,这个项目本身现在看来有些像一个内核程序雏形,下一步的计划不是用它来做静态 ai 训练,目标是用它做即时运算和自持型 ai 的核心程序,有新版本和新东西做完了会和大家好好说的。计划时间不会太长,大概一周时间吧。
    WuSiYu
        14
    WuSiYu  
       14 小时 46 分钟前
    @evegod 有探索精神自己动手实践是好的,不过做学术不是这么搞的,AI 领域一天的新论文都有几百几千篇,你不能指望别人主动去花时间复现一个甚至还不完整的工作,还是先等你至少能放出一些效果或者评测结论后再说吧
    evegod
        15
    evegod  
    OP
       12 小时 38 分钟前
    @WuSiYu 好的啊,有好的结果和你说。
    c0xt30a
        16
    c0xt30a  
       7 小时 37 分钟前
    都四维时空干涉了,OP 先写一下波函数吧。
    pandaex
        17
    pandaex  
       2 小时 53 分钟前 via Android
    咋说呢,先验知识得经过多个数据集评估检验,才能论证一个假设有效的组件有效,而不是说故事,最优化的启发性算法适合你,模型还是得一项一项的做消融对比实验,然后拉出来王对王比较。
    pandaex
        18
    pandaex  
       2 小时 33 分钟前 via Android
    仔细看了下这是个词表分类器,基本和 transformers 无关,类似于中早期年代的 charcnn ,真的和 @Xs0ul 说的一样,而且训练语料设计的很粗暴
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5057 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 08:35 PVG 16:35 LAX 00:35 JFK 03:35
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86