php词云库(词云 网站)
华为云服务器特价优惠火热进行中! 2核2G2兆仅需 38 元;4核4G3兆仅需 79 元。购买时间越长越优惠!更多配置及优惠价格请咨询客服。
合作流程: |
本篇文章给大家谈谈php词云库,以及词云 网站对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
微信号:cloud7591如需了解更多,欢迎添加客服微信咨询。
复制微信号
本文目录一览:
php及数据库
PHP调用三种数据库的方法
本文比较详细的介绍PHP调用MySQL、ODBC以及ORACLE数据库。
MySQL是一个小巧灵珑的数据库服务器软件,对于中、小型应用系统是非常理想的。除了支持标准的ANSI SQL语句外,最重要的是,它还支持多种平台,而在Unix/Linux系统上,MySQL支持多线程运行方式,从而能获得相当好的性能。它和PHP、 Apache一样,是属于开放源代码软件。其官方网站是:,上面提供Windows,Linux,Unix版本的源代码的下载。
注意,MySQL访问函数都需要有相应的权限才能运行。常用的相关函数介绍如下:
(1)integer mysql_connect(主机,用户名,口令);
此函数开始一个对指定主机上的MySQL数据库的连接。若该数据库位于一个不同地端口,则在主机名后加上冒号和端口号。所有参数均为可选的,缺省情况下分别对应为本地主机、用户正在执行的脚本名和空。主机可以是IP地址或域名。
在脚本执行结束时,连接被自动关闭,也可以用mysql_close提前关闭。
(2)boolean mysql_create_db(数据库名);
创建一个数据库。注意必须用一个带有创建数据库许可权的帐号打开连接。
(3)boolean mysql_select_db(数据库名,连接号);
选择缺省数据库。
(4)integer mysql_query(SQL语句,连接号);
对指定数据库进行查询。如果SQL语句是select,则返回一个结果号,否则返回的值可以不理会。如果失败,返回false.。
(5)array mysql_fetch_array(结果号);
取出下一行,返回一个数组.可以用数字下标访问(第一个字段是下标 0),也可以用字符串下标访问(即使用各字段名)。如已取了最后一行,返回 false.。
(6)mysql_fetch_row(结果号);
返回一个矩阵代表结果集中一行的所有域。每次调用都会产生下一行,直到没有行剩下时返回false。每个域值都由一个从零开始的偏移量索引。这是从查询中获取结果的最快方法。
(7)integer mysql_num_rows(结果号);
返回结果集中行的数目
(8)integer mysql_num_fields(结果号);
返回结果集中域的数目。
(9)integer mysql_list_dbs();
向服务器查询数据库列表。它返回一个结果指针,该指针可用于mysql_fetch_row函数及类似函数。
(10)mysql_list_tables(数据库名);
获取一个指向指定数据库的表单列表的结果指针。该结果指针可用于任何从结果集中获取行的函数。
(11)mysql_close(连接号);
关闭对数据库的连接。连接必须是由mysql_connect打开的。该函数的使用不是严格必需的,因为在脚本结束时,所有非永久链路都会被自动关闭。
(12)mysql_pconnect(主机,用户名,口令);
与mysql_connect完全相似,但建立一个"永久连接",该连接一经建立永不关闭,即使使用mysql_close函数或程序执行完毕也不关闭.下一次试图建立永久连接时,系统如发现已存在一个永久连接,则直接返回该连接号而不重新创建。
下面是一个调用MYSQL数据库并分页显示的例子。
?
$pagesize = 5; //每页显示5条记录
$host="localhost";
$user="user";
$password="psw";
$dbname="book"; //所查询的库表名;
//连接MySQL数据库
mysql_connect("$host","$user","$password") or die("无法连接MySQL数据库服务器!");
$db = mysql_select_db("$dbname") or die("无法连接数据库!");
$sql = "select count(*) as total from pagetest";//生成查询记录数的SQL语句
$rst = mysql_query($sql) or die("无法执行SQL语句:$sql !"); //查询记录数
$row = mysql_fetch_array($rst) or die("没有更多的记录!"); /取出一条记录
$rowcount = $row["total"];//取出记录数
mysql_free_result($rst) or die("无法释放result资源!"); //释放result资源
$pagecount = bcdiv($rowcount+$pagesize-1,$pagesize,0);//算出总共有几页
if(!isset($pageno)) {
$pageno = 1; //在没有设置pageno时,缺省为显示第1页
}
if($pageno1) {
$pageno = 1; //若pageno比1小,则把它设置为1
}
if($pageno$pagecount) {
$pageno = $pagecount; //若pageno比总共的页数大,则把它设置为最后一页
}
if($pageno0) {
$href = eregi_replace("%2f","/",urlencode($PHP_SELF));//把$PHP_SELF转换为可以在URL上使用的字符串,这样的话就可以处理中文目录或中文文件名
if($pageno1){//显示上一页的裢接
echo "a href="" . $href . "?pageno=" . ($pageno-1) . ""上一页/a ";
}
else{
echo "上一页";
}
for($i=1;$i$pageno;$i++){
echo "a href="" . $href . "?pageno=" . $i . """ . $i . "/a ";
}
echo $pageno . " ";
for($i++;$i=$pagecount;$i++){
echo "a href="" . $href . "?pageno=" . $i . """ . $i . "/a ";
}
if($pageno$pagecount){//显示下一页的裢接
echo "a href="" . $href . "?pageno=" . ($pageno+1) . ""下一页/a ";
}
else{
echo "下一页 ";
}
$offset = ($pageno-1) * $pagesize;//算出本页第一条记录在整个表中的位置(第一条记录为0)
$sql = "select * from pagetest LIMIT $offset,$pagesize";//生成查询本页数据的SQL语句
$rst = mysql_query($sql);//查询本页数据
$num_fields = mysql_num_fields($rst);//取得字段总数
$i = 0;
while($i$num_fields){//取得所有字段的名字
$fields[$i] = mysql_field_name($rst,$i);//取得第i+1个字段的名字
$i++;
}
echo "table border="1" cellspacing="0" cellpadding="0"";//开始输出表格
echo "tr";
reset($fields);
while(list(,$field_name)=each($fields)){//显示字段名称
echo "th$field_name/th";
}
echo "/tr";
while($row=mysql_fetch_array($rst)){//显示本页数据
echo "tr";
reset($fields);
while(list(,$field_name)=each($fields)){//显示每个字段的值
$field_value = $row[$field_name];
if($field_value==""){
echo "td /td";
}
else{
echo "td$field_value/td";
}
}
echo "/tr";
}
echo "/table";//表格输出结束
mysql_free_result($rst) or die("无法释放result资源!");//释放result资源
}
else{
echo "目前该表中没有任何数据!";
}
mysql_close($server) or die("无法与服务器断开连接!");//断开连接并释放资源
?
开放数据库连接(ODBC)已成为一种与数据库进行通信的工业标准。PHP也提供了标准的接口,使得PHP能调用Access,SQL SERVER等数据库。其相关函数是:
(1)integer odbc_connect(string dsn, string user, string password)
连接到一个ODBC数据库源名字上。
(2)integer odbc_exec(integer connection, string query)或 odbc_do(integer connection, string query)
在一个连接上执行查询。
(3)boolean odbc_fetch_row(integer result, integer row)
从一个结果集中获取一行数据。Row参数是可选的,若为空缺,则返回下一个有效行。在结果集中不再剩余行时返回false。
(4)boolean odbc_close(integer connection)
关闭一个数据库的连接。若在该连接上有打开的事务,则返回一个错误,而且连接不会被关闭。
最后,还是看个分页的例子:
?
//设定每页显示条数
$show_num = 10;
$spages = $pages;//避免$pages后期被改变
//定义连接
$dsn = "localhost";
$user = "sa";
$password = "";
//计算总记录数
$rs_num = "select count(*) as id from bbs where zu='0' and lei='".$lei."'";
$conn_id = odbc_connect($dsn,$user,$password);
$rnum = odbc_exec($conn_id,$rs_num);
while(odbc_fetch_row($rnum)){
$total_rs = odbc_result($rnum,"id");//将总记录数放入$total_rs变量
}
//计算与页有关的条数
$nnn = $total_rs / $show_num;//计算总页数
$hnnn = intval($nnn);//将总页数取整
$cnnnn = $nnn - $hnnn;
//计算所需总页数
switch ($cnnn){
case "0":
$hnnn++;
$nnn = $hnnn;//总页数
break;
default :
$nnn = $hnnn;//总页数
break;
};
if ($nnn == 0)$nnn++;
//计算页面改变所需的条件
$fore = $pages;
$next = $pages;
$fore -= 1;
$next += 1;
if ($fore 0) {
echo "a首页/a";
echo "a前页/a";
};
if ($pages $nnn) {
echo "a后页/a";
echo "a尾页/a";
};
echo "共".$nnn."页";
$query_string = "SELECT * FROM table where condition order by you wanted order";
$cur = odbc_exec($conn_id,$query_string);
//取到循环的顶部
$cnum = ($pages-1) * $show_num;//计算当前的记录游标的位置
//空循环到显示记录游标处
if ($cnum != 0){
for ($i=0;$i=$cnum;odbc_fetch_row($cur));
};
$i=1;
//显示记录
while(odbc_fetch_row($cur)){
echo ;
if ($i == $show_num){//在不满页数时跳出程序
break;
};
$i++;
};
//关闭连接
odbc_close($conn_id);
?
Oracle(甲骨文)是世界上最为流行的关系数据库。它是大公司推崇的工业化的强有力的引擎。我们先看看其相关的函数:
(1)integer ora_logon(string user , string password)
开始对一个Oracle数据库服务器的连接。
(2)integer ora_open(integer connection)
打开给出的连接的游标。
(3)integer ora_do(integer connection, string query)
在给出的连接上执行查询。PHP生成一个指示器,解析查询,并执行之。
(4)integer ora_parse(integer cursor, string query)
解析一个查询并准备好执行。
(5)boolean ora_exec(integer cursor)
执行一个先前由ora_parse函数解析过的查询。
(6)boolean ora_fetch(integer cursor)
此函数会使得一个执行过的查询中的行被取到指示器中。这使得您可以调用ora_getcolumn函数。
(7)string ora_getcolumn(integer cursor, integer column)
返回当前的值。列由零开始的数字索引。
(8)boolean ora_logoff(integer connection)
断开对数据库服务器的链接。
以下是向ORACLE数据库插入数据的示例程序:
html
headtitle向ORACLE数据库中插入数据/title/head
body
form action="?echo $PHP_SELF;?" method="post"
table border="1" cellspacing="0" cellpadding="0"
tr
thID/th
thname/th
thDescription/th
/tr
tr
tdinput type="text" name="name" maxlength="50" size="10"/td
tdinput type="text" name="email" maxlength="255" size="30"/td
tdinput type="text" name="Description" maxlength="255" size="50"/td
/tr
tr align="center"
td colspan="3"input type="submit" value="提交" input type="reset" value="重写"/td
/tr
/table
/form
?
//先设置两个环境变量ORACLE_HOME,ORACLE_SID
putenv("ORACLE_HOME=/oracle/app/oracle/product/8.0.4");
putenv("ORACLE_SID=ora8");
//设置网页显示中文
putenv("NLS_LANG=Simplified_Chinese.zhs16cgb231280");
if($connection=ora_logon("scott","tiger")) {
//库表test有ID,name,Description三项
$sql = 'insert into test(ID,name,Description) values ';
$sql .= '('' . $ID . '','' . $name . '',''. $Description . '')';
if($cursor=ora_do($connect,$sql)) {
print("insert finished!");
}
$query = 'select * from test';
if($cursor=ora_do($connect,$query)) {
ora_fetch($cursor);
$content0=ora_getcolumn($cursor,0);
$content1=ora_getcolumn($cursor,1);
$content2=ora_getcolumn($cursor,2);
print("$content0");
print("$content1");
print("$content2");
ora_close($cursor);
}
ora_logoff($connection);
}
?
/body
/html
通过PHP你可以轻松的连接到数据库,请求数据并将其显示在你的web站点中,甚至修改数据库中的数据。 MySQL是一种很流行的数据库,并且在互联网中有许多有关PHP与MySQL的教程。MySQL是免费的,这一点也许就吸引了不少人。由于其广泛应用, 我就不想在这里赘述MySQL的使用方法了。Oracle被大量在企业应用中采用,因此我们就利用Oracle来介绍PHP与数据库的连接。我们当然不会 提及Oracle数据库的设计原理,原因是这已经超出了我们的讨论范围。
PHP提供了两套函数与Oracle连接,分别是ORA_和OCI函数。其中ORA_函数略显陈旧。OCI函数更新据说更好一些。两者的使用语法几乎相差无几。如前所述,你的PHP安装选项应该可以支持两者的使用。
想获得更多有关在Microsoft Windows平台上安装支持PHP3的Apache服务器的知识以及更多有关Oracle数据库的知识,请查阅以下URL:。
4.1 连接
if ($conn=Ora_Logon("user@TNSNAME","password"))
{
echo "SUCCESS ! Connected to database\n";
}
else
{
echo "Failed :-( Could not connect to database\n";
}
Ora_Logoff($conn);
phpinfo();
?
以上代码使用TNSNAME(在你的tnsnames.ora文件中指明)定义的Oracle数据库名称、用户名称和密码连接数据库。在成功连接的基础上,ora_logon函数返回一个非零的连接ID并储存在变量$conn中。
4.2 查询
假设与数据库已经连接就绪,下面我们就来实际的应用对数据库的查询。下面的代码演示了一个连接并查询的典型例子:
/*
* 连接数据库并执行查询
*/
function printoraerr($in_cur)
{
// 检查Oracle是否出错
// 如果存在错误则显示
// 当指针被激活时每次请求Oracle后调用该函数
if(ora_errorcode($in_cur))
echo "Oracle code - ".ora_error($in_cur)."\n";
return;
}
/** 主程序 */
if (!($conn=ora_logon("user@TNSNAME","password")))
{
echo "Connection to database failed\n";
exit;
}
echo "Connected as connection - $conn
\n";
echo "Opening cursor ...
\n";
$cursor=ora_open($conn); printoraerr($cursor);
echo "Opened cursor - $cursor
\n";
$qry="select user,sysdate from dual";
echo "Parsing the query $qry ...
\n";
ora_parse($cursor,$qry,0); printoraerr($cursor);
echo "Query parsed
\n";
echo "Executing cursor ...
\n";
ora_exec($cursor); printoraerr($cursor);
echo "Executed cursor
\n";
echo "Fetching cursor ...
\n";
while(ora_fetch($cursor))
{
$user=ora_getcolumn($cursor,0); printoraerr($cursor);
$sysdate=ora_getcolumn($cursor,1); printoraerr($cursor);
echo " row = $user, $sysdate
\n";
}
echo "Fetched all records
\n";
echo "Closing cursor ...
\n";
ora_close($cursor);
echo "Closed cursor
\n";
echo "Logging off from oracle...
\n";
ora_logoff($conn);
echo "Logged off from oracle
\n";
?
(译者注:以上代码段缺少注释,请读者参考PHP Manual的Oracle数据库函数部分)
4.3 显示结果
以下代码演示了怎样查询数据库并将结果输出:
function printoraerr($in_cur, $conn)
{
// 检查Oracle是否出错
// 如果存在错误则显示
// 当指针被激活时每次请求Oracle后调用该函数
// If it encountered an error, we exit immediately
if(ora_errorcode($in_cur))
{
echo "Oracle code - ".ora_error($in_cur)."
n";
ora_logoff($conn);
exit;
}
return;
}
function exequery($w_qry,$conn)
{
$cursor=ora_open($conn); printoraerr($cursor,$conn);
ora_parse($cursor,$w_qry,0); printoraerr($cursor,$conn);
ora_exec($cursor); printoraerr($cursor,$conn);
$numrows=0;
$w_numcols=ora_numcols($cursor);
// 显示头部
echo "
\n";
for ($i=0;$i$w_numcols;$i++)
{
$align=(ora_columntype($cursor,$i)=="NUMBER")?"RIGHT":"LEFT";
echo "\t ".ora_columnname($cursor,$i)." \n";
}
echo "
\n";
while(ora_fetch($cursor))
{
echo " \n";
for ($i=0;$i$w_numcols;$i++)
{
$align=(ora_columntype($cursor,$i)=="NUMBER")?"RIGHT":"LEFT";
if(ora_columntype($cursor,$i)=="LONG")
echo " ".
ora_getcolumn($cursor,$i)."
\n";
else
echo " ".ora_getcolumn($cursor,$i)." \n";
printoraerr($cursor,$conn);
}
$numrows++;
echo "
\n";
}
if ($numrows==0)
echo " Query returned no records
\n";
else
{
echo " \n";
echo " Count \n";
echo " $numrows \n";
echo "
\n";
}
echo " \n";
ora_close($cursor);
return;
}
// 主程序
if(!($conn=ora_logon("user@SID","password")))
{
echo "Error: Cannot connect to database\n";
exit;
}
$qry="SELECT
deptno \"Dept\"
,empno \"Emp\"
,empnm \"Name\"
,salary \"Salary\"
FROM
employee
ORDER BY 1,2";
exequery($qry);
ora_logoff($conn);
?
(译者注:以上代码段缺少注释,请读者参考PHP Manual的Oracle数据库函数部分)
4.4 基于HTTP的Oracle登录
将以下代码加在PHP页面代码之前以确认Oracle登录。注意你必须正确设定$ SID。
if(!isset($PHP_AUTH_USER))
{
Header("WWW-authenticate: basic realm=\"$SID\"");
Header("HTTP/1.0 401 Unauthorized");
$title="Login Instructions";
echo "
You are not authorized to enter the site
\n";
exit;
}
else
{
if (!($conn=ora_logon("$PHP_AUTH_USER@$SID",$PHP_AUTH_PW)))
{
Header("WWW-authenticate: basic realm=\"$SID\"");
Header("HTTP/1.0 401 Unauthorized");
$title="Login Instructions";
echo "
You are not authorised to enter the site
\n";
exit;
}
}
?
3种好用的词云工具,快来试一下吧~
你是否在别人的PPT中看到这样炫酷的图形?
这样的表达方式是不是更一目了然?
这其实就是词云——一种能够展示热点话题、核心内容的可视化工具~
词云图通过过滤大量的文本信息,对出现频率较高的“关键词”进行视觉上的突出,让读者一眼就能领略文章主旨。
在线词云软件一般都能够支持长、短文本分析,在这里,就为大家介绍3种常用的词云软件
一、图悦(国内软件,好用但偶尔不稳定)
优点:
1、算是国内做的一款用户体验比较好的在线词频分析工具,可以进行长文本或者单个网页页面分析;
2、输出结果支持自定义图形模板,可以在标准(圆形)、微信(椭圆)和地图模式输出;
3、也支持词频excel的导出(可利用导出结果进行二次加工)
4、生成词云中的无意义词汇较少,不会出现单个无意义的文字
缺点:
1、稳定性较弱
2、 不支持展示词的筛选
3、 无法进行自定义颜色、字体等主题设置
二、tagxedo
优点:
1、用户体验较好,可进行中英文长文本或者单个网页分析;
2、输出结果支持多种自定义模板;
3、可调整字体、主题颜色、文字朝向;
4、可筛选需要展示的内容;
缺点:
1、仅支持360/ie浏览器,加载慢
2、 不支持词频导出
3、 无法进行展示词大小的调整
三、Wordart
优点:
1、支持拼接式的词云展示;
2、可定制化展示关键词大小;
3、支持主题、颜色、文字朝向的定制化展示;
4、支持网页、长文字、短词输入
缺点:
1、需要上传指定字体才能支持中文词云展示
2、主题配色功能较弱
以上,就是使用体验比较好的3种词云工具啦~
希望能够帮助大家实现数据、文本的可视化操作~
如果有其他好用的词云软件,也欢迎留言分享呀~

PHP 庞大的关键词库怎么匹配
php匹配关键字??
你词放数据库了,搜索用的是sql语句,跟php无关。
百万级的话,一个字段里只放一个词,然后给这个字段做索引勉强能撑下。
百万级建议用solr。
建议楼主找专业人士解决
词云图中的虚词怎么删除
论文中的插图在一定程度上影响着评审人对于论文质量的评价,并且人文社科类论文通常需要进行大量文字分析,词云图可以通过高亮或放大词频数较高的关键词,来突出显示所选文字材料中的重点。本文以指定搜索词的百度结果页为例,制作一张词云图。
1.导入库
import requests,lxml
from bs4 import BeautifulSoup
import csv,jieba,wordcloud,paddle
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
这里用到的库主要分为三个部分:
1. 对百度结果进行爬虫操作,主要用到 requests、lxml、BeautifulSoup
2.对爬虫结果进行分词,主要用到 csv、jieba、paddle
3.对分词结果进行词云绘制,主要用到 wordcloud、numpy、matplotlib、PIL
如果不确定自己设备里是否有上述的库文件,可以在命令行中执行安装操作,有的话会提示已安装,没有的话会自动安装:
pip install 目标库
2.网址处理
本文用到的搜索信息是“基层治理”和“两邻理论”,在网址处理环节,需要先构建出每一页的链接:
base_url = " ;ie=utf-8word=两邻+\"基层\"pn="
urls = [base_url+str(i) for i in range(0,291,10)]
print(urls)
out:
[' ;ie=utf-8word=%E4%B8%A4%E9%82%BB+%22%E5%9F%BA%E5%B1%82%22pn=0'
...
' ;ie=utf-8word=%E4%B8%A4%E9%82%BB+%22%E5%9F%BA%E5%B1%82%22pn=290']
首先是构建一个 base_url,tn 参数设置为 news 代表“资讯”栏目,word 代表搜索词,pn 参数代表页数,但是并不能直接序列设置。通过网址观察可以发现,第一页的 pn 为 0,第二页的 pn 为 10,所以通过range函数构造一个序列,从 0 开始,步长为 10,总共爬取 30 页。
3.文章网址汇总
因为网址数量并不大,所以直接以字典加列表的方式存储:
results =[]
for url in urls:
res = requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'})
soup = BeautifulSoup(res.text,'lxml')
for i in soup.find_all("h3"):
try:
result = {
"title":i.a["aria-label"][3:],
"url":i.a["href"]
}
results.append(result)
print(result)
except:
print(url)
out:
{'title': '沈阳市和平区:以“百千万”党员志愿服务践行“两邻”理念_综合...', 'url': ''}
{'title': '浑南区五三街道召开“两邻学堂”启动仪式 暨“奋斗者..._手机网易网', 'url': ''}
....
{'title': '【两邻生活】党建引领 锚定难点 沈北新区散体楼合围治理破“四难...', 'url': ''}
{'title': '“两邻”理念推动基层治理 铁西区物业管理实现新突破(一):党建...', 'url': ';c=Contenta=indexcid=51aid=2785'}
第一步主要使用 requests 库的 get 方法,获取网页内容,然后通过 BeautifulSoup 的网页解析功能,将网页以 lxml 形式格式化,以方便网页子节点的获取。
第二步主要是在网页中获取文章网址,通过网页源代码信息可以发现,文章链接在 h3 标签下,所以可以通过 find_all 方法获取所有 h3 节点,然后通过 for 循环,读取每个 h3 标签中的信息并处理。
h3 class="news-title_1YtI1 "
a href=""
aria-label="标题:【两邻生活】道义街道:“暖心三部曲”奏响“为民服务主旋律..."
道义街道:“暖心三部曲”奏响“为民服务主旋律...
/a
/h3
观察 h3 标签下的 a 标签,新闻标题存在于 aria-label 标签下,新闻链接存在于 href 标签下,所以在 result 字典里,直接读取 a 标签下的上述两个属性即可。
第三步把存有每条新闻的 result 字典放进 results 列表中即可。
4.确定每个网站的新闻数量
首先需要确定链接中的网站:
websites=[]
for i in results:
websites.append(i["url"].split('/')[2])
对链接进行分词,网址结构为 ,以 “/” 为分词,第三个元素为主网址,python 列表从 0 开始,所以第三个元素的序列为 2。将每篇文章的主网址放进 websites 列表中。
from collections import Counter
counter = Counter(websites)
print(counter)
out:
Counter({'baijiahao.baidu.com': 40, 'mp.weixin.qq.com': 40, '': 22,
'weibo.com': 15, 'view.inews.qq.com': 15, 'news.syd.com.cn': 14, '': 10, '3g.163.com': 10, 'new.qq.com': 8, 'lszhdj.lndj.gov.cn': 8, 'xw.qq.com': 7, 'finance.sina.com.cn': 5, '': 4, '': 4, 'liaoning.news.163.com': 4, '': 4, '': 4, 'k.sina.com.cn': 3, 'society.sohu.com': 3, '': 3, 'liaoning.nen.com.cn': 3, 'liaomedia.net': 2, 'finance.sina.cn': 2, 'neunews.neu.edu.cn': 2, 'mzj.shenyang.gov.cn': 2, 'ln.people.com.cn': 2, '': 2, 'cpu.baidu.com': 2, '': 1, 'djyj.12371.cn': 1, 'rmh.pdnews.cn': 1, '': 1, 'heping.nen.com.cn': 1, '': 1, '': 1, 'card.weibo.com': 1, '': 1, 'wap.eastmoney.com': 1, 'gov.sohu.com': 1, '': 1, 'app.myzaker.com': 1, '': 1, '': 1, '': 1, 'ex.chinadaily.com.cn': 1, 'news.lnd.com.cn': 1, '': 1, 'mini.eastday.com': 1, 'k.sina.cn': 1, '': 1, '': 1, 'news.sohu.com': 1, '': 1, '': 1, '': 1, 'cj.sina.cn': 1, 'm.chinanews.com': 1, 'news.cnhubei.com': 1, 'shenyang.creb.com.cn': 1, 'zhuanlan.zhihu.com': 1, 'xysy.shenyang.gov.cn': 1, 'finance.nen.com.cn': 1, 'dy.163.com': 1, 'ln.cri.cn': 1, '': 1})
然后对网站进行计数,这里用到的是 Counter,可以直接将列表中的元素分组计数。可以发现新闻数量最多的网站分别是“百度百家号”、“微信公众号”、“搜狐新闻”、“微博”,这里选用前三个网站,具体实践过程可以根据不同网站的新闻数量占比酌情选择。
5.为每个网站编写规则
def get_website_info(url):
result = []
p =[]
Aresult = []
website=url.split('/')[2]
target_web = ['baijiahao.baidu.com','new.qq.com','mp.weixin.qq.com','news.sohu.com','']
try:
if website in target_web:
res = requests.get(url,headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.70'})
soup = BeautifulSoup(res.text,'lxml')
if website == "baijiahao.baidu.com":
p = soup.find_all("p")
elif website == "new.qq.com":
p = soup.find_all(class_="one-p")
elif website == "mp.weixin.qq.com":
p = soup.find("div", {"id": "js_content"})
elif website == "news.sohu.com" or "":
p = soup.find_all("article",class_="article")
for i in p:
if i.text != "":
result.append(i.text)
Aresult = "".join(result)
except:
return result
return Aresult
由于抓取的内容是文字信息,且所在的网站无明显反爬策略,所以只需要找出文章所在的位置即可,方法跟第三小节中的一样,只需要找出相关的 html 标签即可。
百家号的文章存在于p标签内;腾讯新闻的文章存在于 class 为 one-p 的 p 标签内;微信公众号的文章存在于 id 为 js_content 的 div 标签内;搜狐有两个相关的网站,但是网页结构都是一样的,文章存在于 class 为 article 的 p 标签内。
此处只指定了数量排名靠前的网站的抓取策略,其余的网站会自动过滤并返回空信息。
6.将所有文章写入 csv 文件中
countt = 0
with open("webinfo.csv","w",newline="",encoding="utf-8-sig") as f:
writer = csv.writer(f)
writer.writerow(["title","url","content"])
for i in results:
c = get_website_info(i["url"])
time.sleep(2)
if c != "":
content = c
w = {
"title":i["title"],
"url":i["url"],
"content":c
}
writer.writerow([w["title"],w["url"],w["content"]])
countt += 1
if countt % 10 == 0:
print("已完成{}条".format(countt))
f.close()
out:
'已完成10条'
'已完成20条'
'已完成30条'
....
'已完成270条'
这一步是为了把文章内容保存在文件中,避免下一步绘制词云时操作不当丢失变量信息。
countt 变量是用来计算已经写入了多少条文章,每写入一条就 +1。写入 csv 文件时,用的 csv.writer,以及 writer.writerow,前者是用来生成一个可写入对象,后者可以将数据按行写入文件。
在写入数据时,先把标题、链接和新闻内容合并成字典,然后以字典的形式按行写入,这样就能把整体的新闻数据以符合数据表的形式存储,如果后续对此数据表有可视化操作或者其他自定义操作的话,会更加的方便。
当然也可以直接把所有新闻按顺序写入,不按照这种结构化的数据处理,即:
countt = 0
with open("webinfo.csv","w",newline="",encoding="utf-8-sig") as f:
writer = csv.writer(f)
# writer.writerow(["title","url","content"])
for i in results:
c = get_website_info(i["url"])
time.sleep(2)
if c != "":
# content = c
# w = {
# "title":i["title"],
# "url":i["url"],
# "content":c
# }
# writer.writerow([w["title"],w["url"],w["content"]])
writer.writerow(c)
countt += 1
if countt % 10 == 0:
print("已完成{}条".format(countt))
f.close()
其中 # 代表注释,即运行时不执行此行代码。
写入数据时,open 方法里的 w 参数指的是写入,纯写入,即打开文件后,不管文件里之前有没有数据,都会从 0 开始写入数据。这里因为只写入一次,所以用的 w 模式,如果需要多次写入,可以用 a,即“追加写入”模式。
中间的 time.sleep(2) 指的是在此处暂停 2 秒,因为程序运行速度很快,get_website_info 方法的用途是爬取网页内容,如果中间不进行停止的话很容易会被网站判定为爬虫程序,进而阻止数据获取,所以需要在每爬完一个网站后暂停 2 秒,这个时间和位置可以根据实际情况自己调整。
7.分词处理
#读取 webinfo.csv
p_list = []
with open("webinfo.csv","r",encoding="utf-8-sig") as f:
reader = csv.reader(f)
for i in reader:
if i[0] == "title":
continue
else:
p_list.append(i[2])
f.close()
#将文章分词
p_list_2 = []
paddle.enable_static()
jieba.enable_paddle()
for i in p_list:
seg_list = jieba.cut(i, cut_all=False)#精确模式,即尽可能保留名词
p_list_2.append(" ".join(seg_list))
#读取停用词并删除
with open("baidu_stopwords.txt","r",encoding="utf-8-sig") as stopwords:
stop_words = [i.strip() for i in stopwords.readlines()]
data_1 = ''
for i in p_list_2:
for j in i:
if j not in stop_words:
data_1 += j
首先需要读取上一小节的 csv 文件,在 open 方法中,之前写入时用的是 w,这里需要用到 r,即 read。由于上一节在写入文件时候,是结构化写入,所以在读取的时候,也需要层层读取。第一步用 csv.reader 生成一个可读取的对象,第二步开始读取上述 csv 文件,先省略第一行,从第二行开始读取,因为每一行的结构都是标题、网址、文章内容,所以读的时候只需要读每一行的第 3 个元素就行了。然后把所有文章添加到一个列表中。
然后需要对所有文章进行分词,用到的是 jieba 库,在用 jieba 库之前,需要开启 paddle,即 paddle.enable_static(),然后在 jieba 中启用 paddle。分词时的主要操作,就是把一段文本分割成单个的词汇,即 jieba.cut,然后把分词后的内容汇总在一起,这里都汇总在了 p_list_2 里,查看一下 p_list_2 的内容就能发现分词结果了。
[in ] print(p_list_2)
[out]
['社会 治理 是 在 执政党 领导 下 由 政府 组织 主导 、 吸纳 社会 组织 等 多方面 治理 主体 参与 、 对 社会 公共事务 进行 的 治理 活动 , 是 党 在 治国 理政 理念 升华 后 对 社会 建设 提出 的 基本 要求 。 '
....
'强调 社会 治理 参与 主体 、 方法 、 路径 等 在 智能化 技术 支撑 下 的 实现 效果 , “ 两邻 ” 理念 下 , 从 智能化 基层 社会 治理 建设 的 基本 内容 要求 入手 , 在 规划 建设 、 制度 建设 、 资源 建设 、 开放 应用 、 平台 建设 、 人才 建设']
最后一步需要进行停用词的删除,从上述的分解结果可以发现有很多无意义的虚词,如“是”、“由”、“上”、“下”、“的”、“在”等等,所以需要进行停用词删除,常用的停用词库有百度、四川大学、哈工大等,这里使用的是百度停用词表。去除停用词的主要逻辑就是从已分词的列表中剔除掉停用词表中的词。剔除后我们再输出一下 data_1 就可以发现不同之处了:
[out]
['社会 治理 执政党 领导 下 政府 组织 主导 、 吸纳 社会 组织 方面 治理 主体 参 、 社会 公共事务 进行 治理 活动 , 党 治国 理政 理念 升华 后 社会 建设 提出 基 求 。
....
强调 社会 治理 参 主体 、 方法 、 路径 智化 技术 支撑 下 实现 效果 , 两邻 理念 下, 智化 基层 社会 治理 建设 基 内容 求 入手 , 规划 建设 、 制度 建设 、 资源 建设 、 开放 应 、 平台 建设 、 人才 建设']
8.词云绘制
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
font = r'C:\Windows\Fonts\SIMLI.ttf'; # 自定义字体
py_mask = np.array(Image.open('LN.png')) # 词云基准图
img_colors = ImageColorGenerator(py_mask) # 读取颜色
# 输入wordcloud
wc1 = WordCloud(
mask = py_mask,
font_path=font,
background_color="white").generate(data_1)
wc1.recolor(color_func=img_colors) # 上色
plt.imshow(wc1, interpolation='bilinear')
plt.axis('off') # 关闭坐标轴
plt.show() # 输出图片
wc1.to_file('wordcloud.png') # 生成文件
绘制词云的时候需要先导入上方的几个库,具体可以看第一节的介绍内容
在主体部分,第一步是导入自己要使用的字体,Windows 系统的字体一般存放在上述路径中,也可以自己从字体网站下载,然后运行代码的时候只需要把该字体的路径填好就可以了。
第二步是对词云基准图进行解析,这里选用的是辽宁省的地图,图片如下方所示。
2
辽宁省地图
在选取基准图的时候要注意,图片上白色区域是不会被读取的,也就是说词云只会显示在白色区域以外,所以如果有形状要求的话尽量选择白底色的图片。首先使用 Image 打开图片,然后将图片转为 numpy 数据类型,此时的 numpy 数据为三维数据,第一、第二维数据为像素位置,第三维数据为颜色。
[in ] print(Image.open('LN.png'))
[out] 'PIL.PngImagePlugin.PngImageFile image mode=RGBA size=1418x906 at 0x21DB3157730'
[in ] print(py_mask.shape)
[out] '(906, 1418, 4)'
读取完基准图后通过 ImageColorGenerator 读取图片的颜色信息,以用于最后词云图上色。
第三步则是词云的绘制,使用的是 WordCloud,其中需要设置的是参数有:
mask:词云形状,即之前读取的词云基准图;
font_path:字体文件路径,即一开始设置的 font 变量;
background_color:背景颜色,通常设置为白色,可自己调节。
绘制完词云需要进行上色,通过`WordCloud.recolor(color_func=img_colors)` 上色,img_colors 就是之前从图片中读取的颜色信息。
下一步需要将词云信息转换为图片,使用的是 matplotlib.pyplot.plt.imshow,具体步骤为 plt.imshow(wc1, interpolation='bilinear'),第一个参数为词云信息,第二个参数是插值算法,这里的 bilinear 指的是双线性插值,目的是让词云内的文字图像更加平滑,也可以使用其他算法,详细内容可以参见官方文档:Interpolations for imshow/matshow。
最后就是对 plt() 的细化,包括隐藏坐标轴、在信息输出栏中输出图片和保存图片。
test-2
词云
提示:在词云绘制完成后,如果发现仍有一些多余的词,可以重新将这些词添加进停用词表中重新生成新词云。
test-3
调整停用词后
以上,仅作为学习分享,欢迎进行交流探讨,如果文中有错误也欢迎联系我修正,十分感谢,联系方式已经贴在下面的 Blog 里了。
这是我的 Blog:songyp0505 ,欢迎交流,及本文原文页:基层治理爬虫及词云。
songyp0505
songyp0505
阅读 更多文章。
在 freeCodeCamp 免费学习编程。 freeCodeCamp 的开源课程已帮助 40,000 多人获得开发者工作。开始学习
freeCodeCamp 是捐助者支持的 501(c)(3) 条款下具有免税资格的慈善组织(税号:82-0779546)。
我们的使命:帮助人们免费学习编程。我们通过创建成千上万的视频、文章和交互式编程课程——所有内容向公众免费开放——来实现这一目标。学员在世界各地自发成立数千个 freeCodeCamp 学习小组。
所有给 freeCodeCamp 的捐款都将用于我们的教育项目,购买服务器和其
PHP是什么,有什么作用,它的里面包括些什么内容?MYSQL是什么?
PHP是一种用于创建动态WEB页面的服务端脚本语言。如同ASP和ColdFusion,用户可以混合使用PHP和HTML编写WEB页面,当访问者浏览到该页面时,服务端会首先对页面中的PHP命令进行处理,然后把处理后的结果连同HTML内容一起传送到访问端的浏览器。但是与ASP或ColdFusion不同,PHP是一种源代码开放程序,拥有很好的跨平台兼容性。用户可以在Windows NT系统以及许多版本的Unix系统上运行PHP,而且可以将PHP作为Apache服务器的内置模块或CGI程序运行。
除了能够精确的控制WEB页面的显示内容之外,用户还可以通过使用PHP发送HTTP报头。用户可以通过PHP设置cookies,管理用户身份识别,并对用户浏览页面进行重定向。PHP具有非常强大的数据库支持功能,能够访问几乎目前所有较为流行的数据库系统。此外,PHP可以与多个外接库集成,为用户提供更多的实用功能,如生成PDF文件等。
用户可以直接在WEB页面中输入PHP命令代码,因而不需要任何特殊的开发环境。在WEB页面中,所有PHP代码都被放置在“ ?php”和“ ? ”中。此外,用户还可以选择使用诸如 SCRIPT LANGUAGE="php" /SCRIPT 等的形式。PHP引擎会自动识别并处理页面中所有位于PHP定界符之间的代码。
PHP脚本语言的语法结构与C语言和Perl语言的语法风格非常相似。用户在使用变量前不需要对变量进行声明。使用PHP创建数组的过程也非常简单。PHP还具有基本的面向对象组件功能,可以极大的方便用户有效组织和封装自己编写的代码。
MySQL是一个真正多用户、多线程的SQL数据库服务器. SQL 是世界上最普及的数据库语言. MySQL是客户/服务端机制,即包括一个后端的服务器和许多不同的客户程序和库. MySQL数据库是众多的关系型数据库产品中的一个,相比较其它系统而言,MySQL数据库可以称得上是目前运行速度最快的SQL语言数据库。除了具有许多其它数据库所不具备的功能和选择之外,MySQL数据库是一种完全免费的产品,用户可以直接从网上下载数据库,用于个人或商业用途,而不必支付任何费用。
关于php词云库和词云 网站的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
