百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

使用 ChatGPT 做词频统计&词云图

qiyuwang 2024-10-10 11:29 8 浏览 0 评论

任务描述

请用Python撰写一个中文文本分析的代码,进行词频统计、绘制词云图。<br>
分析的数据是csv文件,过程使用pandas、pyecharts、jieba等库。<br>
代码生成后,按照数据导入、数据清洗、数据分析、结果展示四个章节部分对代码进行中文讲解,格式为markdown。

说明

- 以下内容,80%左右内容为chatGPT生成,大邓工作主要是准备实验数据,调试代码,编辑章节。
- 实验环境chatGPT PLUS,今天刚刚花了20美元,使用全局网络模式下,chatGPT响应更稳定快速。
- chatGPT PLUS虽然很强,结果依然有问题,最初生成的词云图是基于wordcloud库,
该库不支持中文,绘制的图片是乱码的。这里指导ta改为pyecharts制作词云图。

教程(国内信用卡不支持,绑定需要国外的信用卡), 可以私信大邓 372335839, 备注【姓名-学校-专业


一、数据导入

首先需要导入需要的库:pandas、jieba、pyecharts等。如果电脑没有相应的库,可以命令行中执行以下安装命令

pip3 install pyecharts
pip3 install jieba

读取csv文件,使用pandas库的read_csv函数:

import pandas as pd
import jieba
import matplotlib.pyplot as plt
from pyecharts import options as opts
from pyecharts.charts import Bar, WordCloud


df = pd.read_csv('data.csv', encoding='utf-8')
df.head()

Run


二、数据清洗

清洗数据是文本分析的第一步,这里需要对数据进行去重、去除空值、去除停用词等操作。

# 去重
df = df.drop_duplicates()

# 去除空值
df = df.dropna()

# 加载停用词表
stopwords = []
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.append(line.strip())

# 分词,并去除停用词
text = ''
for content in df['desc']:
seg_list = jieba.cut(content)
for word in seg_list:
if word not in stopwords:
text += word + ' '

#查看text部分内容
text[:200]
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/y0/4gqxky0s2t94x1c1qhlwr6100000gn/T/jieba.cache
Loading model cost 0.460 seconds.
Prefix dict has been built successfully.

Run

'唐天宝 十四年 长安城 小吏 李善德 突然 接到 一个 任务 贵妃 诞日 之前 岭南 运来 新鲜 荔枝 荔枝 “ 一日 色变 两日 香变 三日 味变 ” 岭南 长安 五千余里 山水 迢 ... ◆ 编辑 推荐 ★ 〇 一年 国际 布克奖 美国 国家图书奖 短 名单 作品 ★ 入选 〇 二一 年度 纽约时报 书评 周刊 十大 好书 ★ 入选 奥巴马 〇 一年 夏季 阅读 书单 ★ .'

三、数据分析

使用jieba库对文本进行分词处理,然后统计每个词语的出现频率。这里使用Python的字典数据结构进行计数。

# 分词
seg_list = jieba.cut(text)

# 统计词频
word_count = {}
for word in seg_list:
if len(word) >= 2: # 只统计长度大于等于2的词语
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1

word_count

Run

{'唐天宝': 4,
'十四年': 2,
'长安城': 4,
'小吏': 2,
'李善德': 2,
'突然': 5,
'接到': 2,
......
'文笔': 1,
'行云流水': 1,
'医学': 1,
'研究生': 1,
'大为': 1,
'空怀': 1,
'壮志': 1,
'无职无权': 1,
'时来运转': 1,
'有名': 2,
'有利': 1,
'真切': 1,
'旅程': 1,
'困扰': 1,
'傅真': 1,
'暌违': 1,
'七年': 1,
...}

四、结果展现

接下来,根据统计结果绘制词云图和柱状图。

4.1 词云图

绘制词云图,使用pyecharts的WordCloud库:

import pyecharts.options as opts
from pyecharts.charts import WordCloud


wordfreqs = [(w, str(f)) for w,f in word_count.items()]


(
WordCloud()
.add(series_name="", data_pair=wordfreqs, word_size_range=[20, 100])
.set_global_opts(
title_opts=opts.TitleOpts(title="词频分析", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
),
tooltip_opts=opts.TooltipOpts(is_show=True),
)
.render("词云图.html") #存储位置
)
'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/词云图.html'

4.2 柱状图

绘制柱状图


#
top_n = 20
word_count_sorted = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
word_top_n = word_count_sorted[:top_n]

bar = Bar()
bar.add_xaxis([w[0] for w in word_top_n])
bar.add_yaxis("词频", [w[1] for w in word_top_n])
bar.set_global_opts(title_opts=opts.TitleOpts(title="词频统计"), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)))
bar.render("word_count.html")

'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/word_count.html'


转载来源:大邓和他的Python

相关推荐

在Word中分栏设置页码一页两个页码的技巧!

施老师:在正常情况下,Word文档中一页只会出现一个页码。但在某种情况下,比如说:用了分栏后,我们希望一页中出现两个页码,那应该如何实现呢?今天,就由宁双学好网施老师来为大家讲一下,利用域来实现一页两...

如何在关键时刻向上自荐(如何在关键时刻做出正确选择)

抓住机会,挺身而出有种时刻叫“关键时刻”,关键时刻,作为一个认为自己有能力的、训练有素的人,应该考虑挺身而出,甚至应该不考虑就挺身而出。...

WPS Word:跨页的文档表格,快速调整为一页。#Excel

如何快速将跨页的文档表格调整为一页?需要根据两种情况分别处理。如果表格所有行的行高相同,调整为一页的方法有两种。第一种方法是将光标移动到表格内,然后将鼠标移动到表格右下角的方框处,按住鼠标左键向上拖动...

word文档插入下一页分节符(word下一页分页符)

在word文档中,对文档页面进行分页是特别常见的操作,其中的下一页分节符也是用得比较多的,但是一些人不太清楚在哪里设置,也不知道它具体能实现的功能是什么。接下来看看如何在word文档中插入下一页分节符...

word文档如何设置某一页纸张的方向

word文档页面方向有横向和纵向,纵向是默认的纸张方向,有时我们需要将页面设置为横向,或只设置其中某一页方向,应该怎么操作呢?一起来看看下面的详细介绍第一步:...

word怎么单独设置一页为横向(word2019怎样设置单独一页为横向)

word里面其中一页可以改为横向的吗?经过实际操作发现是完全可以的。...

Word如何设置分栏,如何一页内容同时显示一栏和两栏

我们使用Word文档,有时需要用到两栏的排版,甚至一页内容同时包含一栏和两栏的排版,这种格式怎么设置呢?具体步骤如下:首先是两栏排版的设置,直接点击Word文件上方工具栏【布局】,选择【分栏】下面的【...

Word怎么分页?这三个方法可以帮到你

我们不仅可以利用Word编辑文档,还可以编辑文集呢。但是有时候会出现两个部分的文章长短不一,我们需要对文档进行分页处理。这样可以方便我们对文档进行其他操作。那么Word怎么分页呢?大家可以采用下面这...

Word内容稍超一页,如何优化至单页打印?

如何将两页纸的内容,缩到一页打印呢?有时候一页纸多一点内容,我们完全可以缩一下,放到一页来打印。...

[word] word 表格如何跨行显示表头、标题

word表格如何跨行显示表头、标题在Word中的表格如果过长的话,会跨行显示在另一页,如果想要在其它页面上也显示表头,更直观的查看数据。难道要一个个复制表头吗?当然不是,教你简单的方法操作设置Wo...

Word表格跨页如何续上表?(word如何让表格跨页不断掉)

长文档的表格跨页时,你会发现页末空白太多了,这时要怎么调整?选中整张表格,右击【表格属性】,点击【行】选项,之后勾选【允许跨页断行】,点击确定即可解决空白问题。...

Word怎么连续自动生成页码,操作步骤来了!

Word怎么连续自动生成页码,操作步骤来了!...

word文档怎么把两页合并成一页内容?教你4种方法

word怎么把两页合并成一页?word怎么把两页合并成一页?用四种方法演示一下。·方法一:把这一个文档合并成一页,按ctrl加a全选文档,然后右键点击段落,弹出的界面行距改成固定值,磅值可以改小一点,...

如何将Word中的一页的纸张方向设置为横向?这里提供详细步骤

默认情况下,MicrosoftWord将页面定向为纵向视图。虽然这在大多数情况下都很好,但你可能拥有在横向视图中看起来更好的页面或页面组。以下是实现这一目标的两种方法。无论使用哪种方法,请注意,如果...

Word横竖混排你会玩吗?(word横排竖排混合)

我们在用Word排版的时候,一般都是竖版格式,但偶尔会需要到一些特殊的版式要求,比如文档中插入的一个表格,横向的内容比较多,这时就需要用到横版,否则表格显示不全。这种横竖版混排的要求,在Word20...

取消回复欢迎 发表评论: