当当的采集程序基本完成
03月 31st, 2008 | by sqlxx |附件中是程序运行的一部分日志,基本上我们想要的元素都有了,大家看一看,有没有什么要增加采集的东西。如果有的话赶紧提出来,现在改还是比较方便的。有什么其他的问题或者建议的,也尽早提出来。
接下去我会写个程序可以把这些结果自动的插入/更新到我们的数据库里面去。因为考虑到可能会重复采集同一本书,并且还有tag方面的东西,所以这个插入数据库可能需要考虑到比较多的东西。
有梦想, 就能行动—-沃尔特.迪斯尼
附件中是程序运行的一部分日志,基本上我们想要的元素都有了,大家看一看,有没有什么要增加采集的东西。如果有的话赶紧提出来,现在改还是比较方便的。有什么其他的问题或者建议的,也尽早提出来。
接下去我会写个程序可以把这些结果自动的插入/更新到我们的数据库里面去。因为考虑到可能会重复采集同一本书,并且还有tag方面的东西,所以这个插入数据库可能需要考虑到比较多的东西。
You must be logged in to post a comment.
4 Responses to “当当的采集程序基本完成”
By wtong on Apr 2, 2008 | Reply
书的彩图没有采集
字数: 150000
版次: 1
页数: 454
印次:
纸张: 铜版纸
包装: 精装
我看了下,当当里还有这些没有采集.
因为我们的书单页面主要的目的还是向用户介绍书,希望他们去买书,所以我想还是采集的全面些,好点
By sqlxx on Apr 2, 2008 | Reply
彩图这个事情比较麻烦,以后再说吧。字数这些都要吗?因为按照以前的讨论好像是以书单为主的吧,这些信息是不是那么重要呢?之前讨论数据库表的时候咋不说呢?
By wtong on Apr 2, 2008 | Reply
我研究了下每本书彩图的地址和书的地址,有这么个规律
图的地址:http://images.dangdang.com/images/20107080.jpg
书的地址:http://product.dangdang.com/product.aspx?product_id=20107080
我发现图的地址里面有个id和书的地址id是相同的.
大概看了10多本书.都是这样的.
不知道这个规律能不能用在采集图片上
By victoryk on Apr 7, 2008 | Reply
字数可有可无吧