Парсинг Title и Description в консоли Linux и проверка на битые ссылки

Для проверки сайтов не всегда нужны платные SEO сервисы. Иногда хватит консоли linux.  Ниже будет один скрипт для парсинга Title и Description + команда для wget с помощью которой можно найти все битые ссылки.

Парсинг Title и Description

Честно стырено там. Для начала надо установить wget, curl, xmllint и xpath

#apt install wget curl libxml2-utils libxml-xpath-perl

Далее создаём рабочую директорию например seo и туда кладём следующий скрипт:

#!/bin/bash
if [ $1 ]; then
rm -rf urls.txt metadata.tsv
wget -m $1 2>&1 | grep '^--' | awk '{ print $3 }' > urls.txt
rm -f metadata.tsv
echo -e "URL\tTitle\tMeta-Description\t" > metadata.tsv
while read -r url; do
curl -s "$url" > tmp_file
title=$(cat tmp_file | xmllint --html --xpath '/html/head/title/text()' - 2>/dev/null)
metadesciption=$(cat tmp_file | xmllint --html --xpath 'string(/html/head/meta[@name="description"]/@content)' - 2>/dev/null)
echo -e "$url\t$title\t$metadesciption" >> metadata.tsv
done < "urls.txt"
else
echo "Usage: ./extract.sh "
fi
rm -rf urls.txt tmp_file

Делаем файл исполняемым и можно использовать. Запуск обычный:

$./extract.sh https://example.com/

Скрипт зеркалирует веб-сайт, используя wget для создания списка всех URL-адресов. На втором этапе он снова извлекает все URL-адреса с помощью Curl и извлекает заголовки и метаописания.

Проверка на битые ссылки

Эта часть честно стырена там.  Тут используется всего одна команда:

$ wget --spider -r -nd -nv -H -l 1 -w 2 -o url_error.txt https://example.com/

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *