Парсинг Title и Description в консоли Linux и проверка на битые ссылки

Для проверки сайтов не всегда нужны платные SEO сервисы. Иногда хватит консоли linux. Ниже будет один скрипт для парсинга Title и Description + команда для wget с помощью которой можно найти все битые ссылки.

Парсинг Title и Description

Честно стырено там. Для начала надо установить wget, curl, xmllint и xpath

#apt install wget curl libxml2-utils libxml-xpath-perl

Далее создаём рабочую директорию например seo и туда кладём следующий скрипт:

#!/bin/bash if [ $1 ]; then rm -rf urls.txt metadata.tsv wget -m $1 2>&1 | grep '^--' | awk '{ print $3 }' > urls.txt rm -f metadata.tsv echo -e "URL\tTitle\tMeta-Description\t" > metadata.tsv while read -r url; do curl -s "$url" > tmp_file title=$(cat tmp_file | xmllint --html --xpath '/html/head/title/text()' - 2>/dev/null) metadesciption=$(cat tmp_file | xmllint --html --xpath 'string(/html/head/meta[@name="description"]/@content)' - 2>/dev/null) echo -e "$url\t$title\t$metadesciption" >> metadata.tsv done < "urls.txt" else echo "Usage: ./extract.sh " fi rm -rf urls.txt tmp_file

Делаем файл исполняемым и можно использовать. Запуск обычный:

$./extract.sh https://example.com/

Скрипт зеркалирует веб-сайт, используя wget для создания списка всех URL-адресов. На втором этапе он снова извлекает все URL-адреса с помощью Curl и извлекает заголовки и метаописания.

Проверка на битые ссылки

Эта часть честно стырена там. Тут используется всего одна команда:

$ wget --spider -r -nd -nv -H -l 1 -w 2 -o url_error.txt https://example.com/

Парсинг Title и Description

Проверка на битые ссылки

Добавить комментарий Отменить ответ