请教大佬们。数据处理需求,详情见下 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Illusionary2233
V2EX    Python

请教大佬们。数据处理需求,详情见下

  •  
  •   Illusionary2233 2023 年 9 月 6 日 1569 次点击
    这是一个创建于 867 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据导出后是一个 txt 文件,该 txt 可能会包括多家机构的数据,
    举个例子来说:需求一
    数据第一行是表名,第二行是上下级的机构 ID ,总共占四列,如:上级:123456 下级:22333 第三行会有个分割线(转成 dataframe 占一列),第四行开始就是各行各列的数据,我需要提取出第二行的两个机构号并给数据(从第四行到数据的最后一行)增加两列分别表示两家机构。

    需求二:
    因为我拿到的 txt 文件可能会是多个表合在一起的结果,也就是包括不同机构,最后的效果就是一张表,然后第一行是标题,第二行开始是数据,数据中多了两列用来标明所属的两家机构

    已完成的目标,对数据进行了清洗和筛选计算,但为了完成需求遇到了不少处理困难,比如机构号的检测和提取(因为除了第一张表,其他表不知道在第几行出现),提取出来后加到对应数据的两列中,在提取时使用 df.iterrows()方法会有缺失值,但填补缺失值后处理也会有困难。

    想请问大佬们有遇到过处理放在 txt 文件中的多张表格数据然后提取信息最后转成 excel 的处理经验嘛
    目前思路有限,恳请赐教!
    4 条回复    2023-09-07 09:28:37 +08:00
    jianhuaMert
        1
    jianhuaMert  
       2023 年 9 月 6 日
    先只读第二行获取机构 ID ,然后直接 pandas 读 txt 跳过前四行再把机构 ID 加进去不就行了。
    NoOneNoBody
        2
    NoOneNoBody  
       2023 年 9 月 6 日
    pandas 可以用 StringIO 读入的
    你可以先把 txt 拆分存入不同的 io 对象,各自读取、合并

    当然也可以一次读入 txt ,然后找到机构所在行,处理并建 multi-index ,然后 drop 掉这些行
    Illusionary2233
        3
    Illusionary2233  
    OP
       2023 年 9 月 7 日
    @jianhuaMert 因为一个 txt 中会有多张表,而且不同的表来自不同机构,所以解决思路是提取 txt 文件中每行的机构号加两列加到对应的数据中
    Illusionary2233
        4
    Illusionary2233  
    OP
       2023 年 9 月 7 日
    @NoOneNoBody 好的,谢谢二位,我试一下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5230 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 60ms UTC 09:24 PVG 17:24 LAX 01:24 JFK 04:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86