Филтър за преглед на сайтове.
Големите сайтове стават все по-красиви и тежки, а ровенето из тях е досадна загуба на време. Да, има RSS, но там не може да посочите каква информация да се показва.
В случая става дума за сайт с обяви за работа (за фрийланс), но същото може да се приложи за преглед на форуми, новини, социални сайтове, СЕО анализ и т. н. Въпрос на изобретателност.
Проблемът: 1) прелиствам безкраен списък 2) заради CSS дизайна, трябва да посочвам с мишката собственика на обявата за да видя активността му - едва 5-6% и... всичко се повтаря пак и пак. За 1 час преглеждам 100-200 обяви докато намеря добрите предложения.
Задачата:
1) извади само текста;
2) филтър по ключова дума, покажи няколко реда над нея (и запиши резултата във файл);
3) изтрий празните редове;
4) добави дата към името на файла
Ето как се постига това:
1. Изваждане на текста - полезната информация е текст, затова ще използвам текстовия браузър ELinks
elinks -dump "http://site-name.com/page1" "http://site-name.com/page2"
2. Филтър - търсене на ключова дума/фраза (и показване на 33 реда над нея), записване във файл
grep -B33 "some-Text" >> File_name.txt
3. Изтриване на празни редове
sed -i -e "/^$/d" File_name.txt
4. Добави дата към името на файла
mv File_name.txt File_name.txt`date +%y%m%d`
(важно - датата не е в единични кавички, ползва се този ` знак)
Целия резултат е този:
elinks -dump "http://site-name.com/page1" "http://site-name.com/page2" | grep -B33 "some-Text" >> File_name.txt && sed -i -e "/^$/d" File_name.txt && mv File_name.txt File_name.txt`date +%y%m%d`
(имената на сайтовете и файловете са примерни - заместете ги с реални имена)
Отваряте файла с някой текстов редактор. Аз ползвам текстовия редактор Geany защото има удобна търсачка която показва редовете ключовата дума която търся.
И така... за секунди получавате само това което искате. Няма CSS дизайн скриващ нужната информация, няма реклами, нито излишни текстове и картинки, дълги описания, скриптове за проучване от търсачки и социални медии...