技术文章您的位置:真钱21点赢钱,手机版21点游戏下载 > 技术文章 >
鲲鹏Web数据抓取-专业Web数据采集服务提供商
发布时间:2020-05-16 03:57

  西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

  您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

  数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

  背景:永辉超市某版本APP的HTTP请求使用了签名参数保护机制,下面是分析该签名算法的过程:

  ESXi搭建的Ubuntu16.04虚拟机,添加了5块虚拟网卡,不同的网口桥接的不同的Bas。

  如图1和图2所示,同一块网卡00:0c:29:b0:17:21,在第一张图中被命名为eth4,但重启后在第二张图中却被命名为eth3。

  而拨号系统内不同的ADSL账号绑定着固定的网卡名称,如果eth号老是跳,就会拨到错误的Bas里,导致拨号失败。

  【经验分享】Nox(夜神模拟器)+ Android 4.4.2版本今天出现了一个很奇怪的问题,xposed-installer-2.6版本突然无法安装了(3月18日之前没有问题),提示信息如附图1所示(Xposed目前不兼容Android SDK版本19或者您的处理器架构)。更奇怪的是,我在其它6台机器上测试都是如此,绝不是个例。

  1. 首先想到的是,它偷偷更新了。于是尝试卸载重装Nox,但是问题依旧。看了下Nox安装目录下的文件和日志,也没见有更新的迹象。

  2. 会不会是在启动的时候通过网络动态加载了什么策略呢?于是尝试断掉网络,重建Nox 虚拟机,xposed-installer-2.6安装成功,在多台机器上做同样尝试,问题均解决。看来就是夜神模拟器做了手脚了。

  断网不是长久之计,于是决定深入分析下,用wireshark抓包,主要看DNS请求,发现Nox在启动的时候访问了如下的域名:

  附dnsmasq address.conf文件内容(如下),直接使用泛域名干掉所有的子域名,防止过滤的不够彻底:

  PS:为什么不直接修改hosts文件呢?一方面是机器比较多,一一设置比较麻烦,直接通过dhcp分配自定义的dns更方便。另一方面一些防护软件可能会保护hosts,设置了不一定有效。

  Squi默认定义了如下端口为安全端口,如果目标端口(例如本例中的81)不在其中将会被拒绝,返回403错误。

  【视频演示】受客户委托,对采集某APP内综合商场商户楼层数据进行可行性评估。实测可行,演示如视频所示。示例数据链接:

  【吐槽】某地电信ADSL资源,拨号成功后前两个请求被强制跳转到.cn(如附图所示),第三个请求之后正常。这是宽带运营商搞的鬼,用于弹窗提示信息(广告或者提醒续费)。类似的情况之前在苏州电信遇到过。

  【经验分享】Chrome Portable各版本下载链接:,这是Chrome便携版(支持Remote Debuging,功能和安装版没有区别),最近在某爬虫项目中集成了该版本,客户不需要额外安装浏览器,用起来很省心。

  【视频演示】受客户委托对淘宝APP-淘鲜达店铺商品数据抓取的可行性进行评估。实测可行(销量也可以采集到),如录屏所示。西安鲲之鹏的微博视频

  似乎是之前的安装有注册表残留(在控制面板已安装程序列表里看不到),尝试安装了多次,持续出现error1316 指定账户已存在问题,网上有VMware注册表清理工具试了也不管用。

  后来使用Windows Installer CleanUp Utility(Windows Installer 清理实用工具包,简称MSICUU)解决了问题。MSICUU会显示你以前没卸干净的软件列表(如附图1所示), 然后选择你想完全卸掉的项目 ,卸载了就可以了。

  对比17年的版本:采用的是(Selenium + phantomjs)能够被反爬虫机制识别,返回有虚假价格情况,失败率也高。西安鲲之鹏的微博视频