wget very cool!!!

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 3974 次

锁定老帖子主题：wget very cool!!! 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
harry 等级: 性别: 文章: 47 积分: 262 来自: 杭州	发表时间：2009-03-26 最后修改：2009-03-26 相关推荐: 在 XSL/XSLT 中实现随机排序 XSLT轻松入门第三章：XSLT的元素语法 XSLT常见问题及解决（三）xsl中variable标签在什么情况下使用生成一组指定范围内随机数(取50个数字，100到200的随机数字) LINQ方法 XSLT简单教程--XSLT的实例更多相关推荐 Linux wget不仅能抓取某个页面，还能对网站做镜像，貌似很不错。这个不就是爬虫吗？而且速度也很快，用来抓取网页格式的文档是不错的。让我们看这条命令： wget --mirror –w 2 –p --HTML-extension –-convert-links –P ~\wget_files\example1 http://www.yourdomain.com --mirror(-m)：指定要做镜像的网站。wget会获取网站的所有链接和相关的文件。如果本地镜像存在，还会自动覆盖最近的更新。 -w：告诉wget每个请求的间隔时间，这里是2秒。这个不是必需的，当有些站点对请求间隔有限制时，这个参数就非常有用了。 -p：让wget获取页面上的所有元素，使其能在本地浏览。--mirror参数并不会保证所有的图片及相关文件都被下载，所以需要加上-p来指定。 --HTML-extension：将所有不是html扩展名的文件都转换成.html。这个参数会把CGI，ASP，PHP等结尾的文件都转换成html结尾。 -P(prefix folder)：指定目标文件夹。还可以备份ftp： wget –mirror –w 3 –p –P ~\wget_files\example2 ftp://username:password@ftp.yourdomain.com 当然下载文件更没问题了： Wget –P c:\wget_files\example3 http://ftp.gnu.org/gnu/wget/wget-1.9.tar.gz 不过备份站点的话，可能用rsync更好的一点吧。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

ray_linn 等级: 性别: 文章: 7738 积分: 605 来自: 坚持零分	发表时间：2009-03-26 常常会自己停住、、
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛: