当当的采集程序基本完成

03月 31st, 2008 | by sqlxx |

附件中是程序运行的一部分日志,基本上我们想要的元素都有了,大家看一看,有没有什么要增加采集的东西。如果有的话赶紧提出来,现在改还是比较方便的。有什么其他的问题或者建议的,也尽早提出来。

采集程序运行日志

接下去我会写个程序可以把这些结果自动的插入/更新到我们的数据库里面去。因为考虑到可能会重复采集同一本书,并且还有tag方面的东西,所以这个插入数据库可能需要考虑到比较多的东西。

  1. 4 Responses to “当当的采集程序基本完成”

  2. By wtong on Apr 2, 2008 | Reply

    书的彩图没有采集

    字数: 150000
    版次: 1
    页数: 454
    印次:
    纸张: 铜版纸
    包装: 精装

    我看了下,当当里还有这些没有采集.

    因为我们的书单页面主要的目的还是向用户介绍书,希望他们去买书,所以我想还是采集的全面些,好点

  3. By sqlxx on Apr 2, 2008 | Reply

    彩图这个事情比较麻烦,以后再说吧。字数这些都要吗?因为按照以前的讨论好像是以书单为主的吧,这些信息是不是那么重要呢?之前讨论数据库表的时候咋不说呢?

  4. By wtong on Apr 2, 2008 | Reply

    我研究了下每本书彩图的地址和书的地址,有这么个规律
    图的地址:http://images.dangdang.com/images/20107080.jpg
    书的地址:http://product.dangdang.com/product.aspx?product_id=20107080

    我发现图的地址里面有个id和书的地址id是相同的.

    大概看了10多本书.都是这样的.

    不知道这个规律能不能用在采集图片上

  5. By victoryk on Apr 7, 2008 | Reply

    字数可有可无吧

You must be logged in to post a comment.