拿来主义一锅端——我玩数据采集

作者: Admin 分类: 岁月留痕 发布时间: 2007/5/22 8:14:56 ė2302 浏览数 60条评论
        人,一种有思想的动物
        前天晚上,跟老李谈起来,潍坊地名网站上有昌邑全部村子的介绍,老李想弄过来用,并且自己见缝插针的转贴了上百个村庄了。我也帮着他弄了三十来个。由于对方网站打开太慢,而且不停的复制粘贴,最终也累的消磨掉了信心。
        老李说,我想办法一点点儿吧。
        我说,别了,还不如我想个办法,让电脑自己弄呢。
        老李说:你得不到对方的是数据库,怎么批量弄?
        我诡秘的笑笑,说,等着吧!

        就这样,我想到了目前流行的采集程序,开始第一次和采集程序亲密接触。
        晚上十点,下载程序,安装,学习,研究,测试……
        半小时后,我安装的采集程序,采集到了昌邑之窗网站的新闻数据!
        测试成功!!
        兴奋!给老李发短信,老李已经累的昏睡过去。
        然后开始琢磨潍坊地名网的页面结构,功夫不负有心人,十几分钟后,系统开始自动采集。
        看着进度条一点点的增长,心里的满足感也在洋溢着。
        回去睡觉,明天早晨来收网——以前下河捉鱼都这么说。
        第二天早晨,看到了昌邑的800多个自然村的信息全部入库,剩下的事情就是导入了。
        导入之前,要对数据进行过滤,查询网上的正则表达式,尝试着过滤掉了其中的表格,代码,还有一些我们不需要的信息,比如“多少户,人均收入多少元”之类的信息。整个数据库的内容就整齐多了。
        开始写导入程序了,为了防止出现不可逆转的错误,我在本地进行了全面的测试,可是就是这一环节,导致了我用了一个上午的时间来做这个。
        我测试了三中语句对数据库进行插入,就是无效。
        反反复复,问百度,问google,问论坛,找思路,拿案例,最后还是未果。
        在确信本地程序无误的前提下,我大胆的玩了一把,把数据直接在服务器上导入,却不经意间成功。
        然后才知道了其中的奥妙:由于114系统是根据mssql写的,没有考虑到在ac数据库上的兼容性,所以将目前的mssql数据库进行改成ac时候,出现了不同,导致了操作mssql的页面程序无法操作ac数据库。
        给晓东打了一个电话,确认了这个论断。
        给发宁打了一个电话,老李惊呆了:还有这么神奇的东西?你这玩意儿能卖大价钱呢!
        哈哈,卖啥啊,网上的“地球人都知道”呢

本文出自 栋力天空,转载时请注明出处及相应链接。

本文永久链接: http://www.dongsky.cn/show_819.html

0

1条评论

  1. qqqqwww 2010/7/26 16:29:00

    都是啤酒,干嘛说人家李鬼。喝好了,大家都知道了就是好酒。国家也没有就说只允许喝青岛啤酒。你也不看看你花多少钱买的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*请输入本文永久链接 show_819.html 的数字部分

Ɣ回顶部