Excel如何爬取网页数据
的有关信息介绍如下:数据来源有很多种,有时需要实时更新网络上的数据信息,需要爬取,但只会使用Excel对数据做基本的处理,当前Excel是支持通过获取WEB数据来爬取网站数据的.
打开Excel,找到【数据】选项卡,在工具栏中找到【新建查询】右下角的按钮--【从其他源】-【自网站】,然后输入你要爬取的网站的地址链接
我这里用的链接地址是:“参看图片,系统不让放”,点击确定出现下图界面
在这里我们使用table5表中的数据,如果你需要获取你自己所想看的数据可点击其他表进行浏览,通过右侧的表视图进行预览.然后点击【加载】即可加载到Excel表格中即实现了基本的数据爬取.如首页图所示
我们可以看到表中已加载到了20行,因为一页也就显示20行,我们点击右侧的【工作簿查询】,进入到的是power query工作窗口,Excel2013(需要启用com加载项】及以上版本才有,2010需要自己进行下载插件,我们先来了解一下是通过怎样的命令才获取到这些数据的,也是为获取多页数据做知识储备。
就是一个Web.Page和Web.Contents包裹的数据地址
然后我们点击网站-这里使用的是Google-chrome浏览器,鼠标右键【检查】进入此界面~切勿畏惧!!!
看到鼠标的地址栏、多页符、以及右侧指示的Network-XHR部分,这部分是包含我们网页所有内容的信息,我们要找到翻页后的完整地址的表示方式,所有需要操作这一步
然后点击网页的左边空白处鼠标右键【重新加载】-即刷新数据信息,右侧会进行很多内容的重新记录.我们鼠标点击不同页,找到不同数据信息变化的地方,如图所示:获取GET下的数据连接:"此部分参看开始连接的图片,不让放"/ifmarket/lhbyyb/type/1/tab/sbcs/field/sbcs/sort/desc/page/11/
设置一个表格将1..12一列,当作参数填写在链接中:将此链接放入高级编辑器界面的Web.Page.Web.Contents(“"此部分参看开始连接的图片,不让放"/ifmarket/lhbyyb/type/1/tab/sbcs/field/sbcs/sort/desc/page/”&[分页]&“/”) 保存后重新加载运行即可.