拿来主义一锅端——我玩数据采集
人,一种有思想的动物
前天晚上,跟老李谈起来,潍坊地名网站上有昌邑全部村子的介绍,老李想弄过来用,并且自己见缝插针的转贴了上百个村庄了。我也帮着他弄了三十来个。由于对方网站打开太慢,而且不停的复制粘贴,最终也累的消磨掉了信心。
老李说,我想办法一点点儿吧。
我说,别了,还不如我想个办法,让电脑自己弄呢。
老李说:你得不到对方的是数据库,怎么批量弄?
我诡秘的笑笑,说,等着吧!
就这样,我想到了目前流行的采集程序,开始第一次和采集程序亲密接触。
晚上十点,下载程序,安装,学习,研究,测试……
半小时后,我安装的采集程序,采集到了昌邑之窗网站的新闻数据!
测试成功!!
兴奋!给老李发短信,老李已经累的昏睡过去。
然后开始琢磨潍坊地名网的页面结构,功夫不负有心人,十几分钟后,系统开始自动采集。
看着进度条一点点的增长,心里的满足感也在洋溢着。
回去睡觉,明天早晨来收网——以前下河捉鱼都这么说。
第二天早晨,看到了昌邑的800多个自然村的信息全部入库,剩下的事情就是导入了。
导入之前,要对数据进行过滤,查询网上的正则表达式,尝试着过滤掉了其中的表格,代码,还有一些我们不需要的信息,比如“多少户,人均收入多少元”之类的信息。整个数据库的内容就整齐多了。
开始写导入程序了,为了防止出现不可逆转的错误,我在本地进行了全面的测试,可是就是这一环节,导致了我用了一个上午的时间来做这个。
我测试了三中语句对数据库进行插入,就是无效。
反反复复,问百度,问google,问论坛,找思路,拿案例,最后还是未果。
在确信本地程序无误的前提下,我大胆的玩了一把,把数据直接在服务器上导入,却不经意间成功。
然后才知道了其中的奥妙:由于114系统是根据mssql写的,没有考虑到在ac数据库上的兼容性,所以将目前的mssql数据库进行改成ac时候,出现了不同,导致了操作mssql的页面程序无法操作ac数据库。
给晓东打了一个电话,确认了这个论断。
给发宁打了一个电话,老李惊呆了:还有这么神奇的东西?你这玩意儿能卖大价钱呢!
哈哈,卖啥啊,网上的“地球人都知道”呢
前天晚上,跟老李谈起来,潍坊地名网站上有昌邑全部村子的介绍,老李想弄过来用,并且自己见缝插针的转贴了上百个村庄了。我也帮着他弄了三十来个。由于对方网站打开太慢,而且不停的复制粘贴,最终也累的消磨掉了信心。
老李说,我想办法一点点儿吧。
我说,别了,还不如我想个办法,让电脑自己弄呢。
老李说:你得不到对方的是数据库,怎么批量弄?
我诡秘的笑笑,说,等着吧!
就这样,我想到了目前流行的采集程序,开始第一次和采集程序亲密接触。
晚上十点,下载程序,安装,学习,研究,测试……
半小时后,我安装的采集程序,采集到了昌邑之窗网站的新闻数据!
测试成功!!
兴奋!给老李发短信,老李已经累的昏睡过去。
然后开始琢磨潍坊地名网的页面结构,功夫不负有心人,十几分钟后,系统开始自动采集。
看着进度条一点点的增长,心里的满足感也在洋溢着。
回去睡觉,明天早晨来收网——以前下河捉鱼都这么说。
第二天早晨,看到了昌邑的800多个自然村的信息全部入库,剩下的事情就是导入了。
导入之前,要对数据进行过滤,查询网上的正则表达式,尝试着过滤掉了其中的表格,代码,还有一些我们不需要的信息,比如“多少户,人均收入多少元”之类的信息。整个数据库的内容就整齐多了。
开始写导入程序了,为了防止出现不可逆转的错误,我在本地进行了全面的测试,可是就是这一环节,导致了我用了一个上午的时间来做这个。
我测试了三中语句对数据库进行插入,就是无效。
反反复复,问百度,问google,问论坛,找思路,拿案例,最后还是未果。
在确信本地程序无误的前提下,我大胆的玩了一把,把数据直接在服务器上导入,却不经意间成功。
然后才知道了其中的奥妙:由于114系统是根据mssql写的,没有考虑到在ac数据库上的兼容性,所以将目前的mssql数据库进行改成ac时候,出现了不同,导致了操作mssql的页面程序无法操作ac数据库。
给晓东打了一个电话,确认了这个论断。
给发宁打了一个电话,老李惊呆了:还有这么神奇的东西?你这玩意儿能卖大价钱呢!
哈哈,卖啥啊,网上的“地球人都知道”呢
本文出自 栋力天空,转载时请注明出处及相应链接。
本文永久链接: http://www.dongsky.cn/show_819.html
1条评论
都是啤酒,干嘛说人家李鬼。喝好了,大家都知道了就是好酒。国家也没有就说只允许喝青岛啤酒。你也不看看你花多少钱买的。