你在这里

老葛讲解使用Feeds抓取数据

wzzhang's picture
wzzhang 在 Fri, 12/12/2014 - 09:53 提交
时间: 
Thursday, December 11, 2014 - 从 12:3013:30

我是代老葛来发布的:

中国Drupal界泰斗级人物——老葛,给大家讲解使用Feeds及其相关模块抓取数据。感谢老葛及其公司亚艾元的支持和分享。附件中是安装源文件,内有图文教程。

清晰版视频提取地址和密码: 
http://pan.baidu.com/s/1mguWd2C#path=%252FCoDrupal 里的老葛讲解DRUPAL采集器使用.wmv

你已经为这个内容打过标签了,你的标签是:

评论

自己来做一楼,总结一下我的学习,可能有误,仅供大家参考:

HTML feed采集器使用feeds crawler模块抓取网址列表页(会翻页)、使用Xpath parser解析、使用node processor对应到news内容类型映射;然后将html feed采集器应用到html feed内容类型上(该内容类型本身无附件字段),创建该内容时输入更多的crawler和Xpath parser的配置参数,然后导入时形成多条news的node,然后在每条news的独立页面上再次导入news的正文——因为有另一个News self采集器,用的是HTTP fetcher和Self node processor