Wget 1.5.3. Руководство пользователя

Типы файлов

При выгрузке материалов с WWW вам часто будет необходимым ограничить выгружаемые данные определенными типами файлов. Например, если вы заинтересованы только в выгрузке GIF файлов, то вы не будете слишком обрадованы выгрузке документов Postscript и наоборот.

Wget предоставляет две опции для решения этой проблемы. Описание каждой опции приводит ее короткое имя, длинное имя и эквивалентную команду файла ".wgetrc".

-A ACCLIST
--accept ACCLIST
accept = ACCLIST

Аргументом (ACCLIST) опции является список суффиксов имен файлов или шаблонов определяющий что Wget будет выгружать во время рекурсии. Суффиксом здесь является завершающая часть имени файла и состоит из "нормальных" символов, например, "gif" или ".jpg". Шаблоны позволяют использовать мета-символы подобно шаблонам оболочки командной строки, например, "books*" или "zelazny*196[0-9]*".

Таким образом определение "wget -A gif,jpg" укажет Wget выгружать только файлы заканчивающиеся на "gif" или "jpg", т.е. графические файлы формата GIF или JPEG. С другой стороны, 'wget -A "zelazny*196[0-9]*"' будет выгружать только файлы с именами начинающимися с "zelazny" и содержащие числа от 1960 до 1969 далее в любом месте имени файла. За объяснением принципов функционирования шаблонов обратитесь к руководству на вашу оболочку.

Разумеется любое количество суффиксов и шаблонов может быть объединено в разделенный запятыми список и передано аргументом для "-A".

-R REJLIST
--reject REJLIST
reject = REJLIST

Данная опция работает аналогично опции "--accept", только ее логика является прямо противоположной. В этом случае Wget будет выгружать любые файлы за исключением тех, что попадают под суффиксы или шаблоны указанные в списке аргумента (REJLIST).

Таким образом, если вы хотите выгрузить со страницы все, исключая увесистые файлы MPEG и .AU, вы можете воспользоваться "wget -R mpg,mpeg,au". Аналогично, для выгрузки всех файлов исключая те, чье имя начинается на "bjork", воспользуйтесь 'wget -R "bjork*"'. Двойные кавычки в командной строке используются для того, чтобы оболочка командной строки сама не обрабатывала шаблон.

Опции "-A" и "-R" могут использоваться совместно для получения очень точного поведения при выгрузке. Например, 'wget -A "*zelazny*" -R .ps' приведет к выгрузке всех файлов содержащих "zelazny" как часть их имени, но исключая все Postscript файлы.

Заметим, что эти две опции не касаются выгрузки HTML файлов, Wget должен выгружать все HTML документы чтобы выяснять куда ему двигаться дальше, в противном случае рекурсивная выгрузка становится просто бессмысленной.

[< предыдущая] [содержание] [следующая >]

Последнее изменение: Monday, 02-Jul-2001 02:28:36 SAMST