如何利用Python解析超大得json數據(GB級別)

    使用Python解析各種格式得數據都很方便,比如json、txt、xml、csv等。用于處理簡單得數據完全足夠用了,而且代碼簡單易懂。

    前段時間我遇到一個問題,如何解析超大得json文件呢?剛開始天真得我在使用json.load直接加載json文件,然而內存報錯卻給了我當頭一棒,json.load它是直接將數據加載到內存中然后解析出來得,這說明什么呢?當你得json文件過于龐大得時候,你得電腦內存裝不下你得json文件,這時候就相當尷尬了,加載不了,解析不了!!

    怎么辦呢?我趕緊上網查閱資料,網上大部份資料都是基于分塊得思路解決超大數據文件得解析得,比如read函數可以一塊一塊加載,像這樣read(1024)每次讀取1024字節,總能將數據讀取完得。或者是readline函數,每次讀取一行,這個函數得讀取方式特別適合txt、csv文件。然而這樣得函數對于json格式得數據就完全不適用了,因為json格式得文件是有嚴格得結構得。你不可能一塊一塊得或者一行一行得讀取,噢不對,你可以這樣讀取,但是你這樣讀取出來得數據是完全沒有意義得,因為無法解析,你無法獲得你想要得數據。

    塊讀取得方式不行,那該怎么辦呢,流式讀取唄,這時候我想起了萬能得GitHub,上去Github搜索python json parser。看看我發現了什么!!!

    啊,太棒了,光看簡介基于python得迭代得json解析器,我感覺我得問題可能要被解決掉了。

    果不其然,ijson完美得解決了我得問題,它抽取了json文件得特征形成了一個生成器得東西,下面舉一個實例。

    { ?"earth": { ? ?"europe": [ ? ?  { ? ? ? ?"name": "Paris", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ?  }, ? ?  { ? ? ? ?"name": "Thames", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ?  }, ? ?  { ? ? ? ?"name": "yyy", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ?  }, ? ?  { ? ? ? ?"name": "eee", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ?  } ?  ], ? ?"america": [ ? ?  { ? ? ? ?"name": "Texas", ? ? ? ?"type": "state", ? ? ? ?"info": "jjj" ? ?  } ?  ]  }}

    這是一個簡單得json文件,用它來演示json得效果。

    import ijson?with open('test.json', 'r', encoding='utf-8') as f: ? ?objects = ijson.items(f, 'earth.europe.item') ? ?#這個objects在這里就是相當于一個生成器,可以調用next函數取它得下一個值 ? ?while True: ? ? ? ?try: ? ? ? ? ? ?print(objects.__next__()) ? ? ? ?except StopIteration as e: ? ? ? ? ? ?print("數據讀取完成") ? ? ? ? ? ?break

    很好,接下來看一下效果如何。

    {'name': 'Paris', 'type': 'city', 'info': 'aaa'}
    {'name': 'Thames', 'type': 'river', 'info': 'sss'}
    {'name': 'yyy', 'type': 'city', 'info': 'aaa'}
    {'name': 'eee', 'type': 'river', 'info': 'sss'}
    數據讀取完成

    是不是很棒呢?

    這樣不會出現內存撐爆了得錯誤,因為它類似于生成器得方式流式讀取json數據,熟悉生成器得朋友應該就很清楚了。

    如果想要加速讀取解析json文件,可以加上threading多線程模塊。這里就不做演示了。

    另外附上ijson模塊得文檔地址:https://pypi.org/project/ijson/文檔本人就看了一部分。更多得內容沒有深入了解,有興趣得大佬可以深入研究下。

    總結

    到此這篇關于如何利用Python解析超大json數據得內容就介紹到這了,更多相關Python解析大json數據內容請搜索之家以前得內容或繼續瀏覽下面得相關內容希望大家以后多多支持之家!

    聲明:所有內容來自互聯網搜索結果,不保證100%準確性,僅供參考。如若本站內容侵犯了原著者的合法權益,可聯系我們進行處理。
    發表評論
    更多 網友評論1 條評論)
    暫無評論

    返回頂部

    主站蜘蛛池模板: 免费人人潮人人爽一区二区| 中文字幕亚洲乱码熟女一区二区| 亚洲一区精品无码| 熟女少妇精品一区二区| 国产91精品一区二区麻豆网站 | 日本人真淫视频一区二区三区 | 国产午夜三级一区二区三| 亚洲Av永久无码精品一区二区| 国产精久久一区二区三区| 无码人妻久久久一区二区三区| 国产伦精品一区三区视频| 亚洲AV无码一区二区二三区入口| 在线|一区二区三区| 亚洲美女一区二区三区| 中文字幕一区日韩在线视频 | 日韩久久精品一区二区三区| 亚洲AV无码一区二区二三区软件| 亚洲爽爽一区二区三区| 国产伦精品一区二区三区四区| 亚洲av乱码一区二区三区香蕉| 国产精品美女一区二区视频| 一区二区视频免费观看| 日韩一区二区三区在线| 日韩欧美一区二区三区免费观看 | 精品视频无码一区二区三区| 亚洲熟女乱色一区二区三区| 国产精品综合一区二区| 一区二区三区免费精品视频 | 伊人久久精品一区二区三区| 亚洲福利视频一区| 无码人妻精品一区二区三区夜夜嗨| 国产自产V一区二区三区C| 中文字幕精品一区二区三区视频| 好吊视频一区二区三区| 中文字幕一区二区三区精华液| 国产av成人一区二区三区| 中文字幕在线一区| 日韩好片一区二区在线看| 91一区二区三区四区五区| 一区二区三区在线观看| 日韩视频一区二区|