论坛首页 综合技术论坛

wget very cool!!!

浏览 3974 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-03-26   最后修改:2009-03-26

wget不仅能抓取某个页面,还能对网站做镜像,貌似很不错。这个不就是爬虫吗?而且速度也很快,用来抓取网页格式的文档是不错的。

 

让我们看这条命令:

wget --mirror –w 2 –p --HTML-extension –-convert-links –P ~\wget_files\example1 http://www.yourdomain.com 
  •  --mirror(-m):指定要做镜像的网站。wget会获取网站的所有链接和相关的文件。如果本地镜像存在,还会自动覆盖最近的更新。
  • -w:告诉wget每个请求的间隔时间,这里是2秒。这个不是必需的,当有些站点对请求间隔有限制时,这个参数就非常有用了。
  • -p:让wget获取页面上的所有元素,使其能在本地浏览。--mirror参数并不会保证所有的图片及相关文件都被下载,所以需要加上-p来指定。
  • --HTML-extension:将所有不是html扩展名的文件都转换成.html。这个参数会把CGI,ASP,PHP等结尾的文件都转换成html结尾。
  • -P(prefix folder):指定目标文件夹。

还可以备份ftp:

wget –mirror –w 3 –p –P ~\wget_files\example2 ftp://username:password@ftp.yourdomain.com

 

当然下载文件更没问题了:

Wget –P c:\wget_files\example3 http://ftp.gnu.org/gnu/wget/wget-1.9.tar.gz 

 

不过备份站点的话,可能用rsync更好的一点吧。

   发表时间:2009-03-26  
常常会自己停住、、
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics