Перейти к содержанию

Разбор "технического задания"

Задание на написание парсера новостного сайта

Необходимо выбрать свободный новостной сайт из списка СМИ https://docs.google.com/spreadsheets/d/1JYY4aGgmL6pYJzYgljhK6SiYCOy6tsC0bCDnJuzmud0/edit?usp=sharing и сделать парсер новостей который бы позволял извлекать главные новости сайта, а потом генерировать JSON файл состоящий из списка новостей со следующей структурой:

{
    [
        {
            'url': '', // ссылка на новость
            'title': '', // заголовок новости
            'img': '', // ссылка на изображение
            'body': '', // текст новости
            'author': '', // автор новости (если указывается)
            'date': '', // дата публикации новости в формате YYYY-MM-DD
            'time': '' // время публикации новости в формате HH:MM
        }
    ]
}

Парсер новостного сайта должен называться по имени сайта, например если новостной сайт www.news.com, то парсер должен называться www-news-com.py. Парсер должен после запуска генерировать файл www-news-com-top.json в котором должен оставаться JSON с главными новостями.