Как создать фильмы онлайн — пошаговая инструкция и видеоурок
Меня практически каждый день просят создать сайт по онлайн фильмам и сериалам. Естественно контент копипаст, так как писать описания к тысячам фильмов будет очень и очень дорого.
Спрос на услугу очень большой, а времени у меня катастрофически мало, поэтому я решил создать эту инструкцию.
Немного теории. Для нормального функционирования онлайн-кинотеатра требуется собственно база фильмов. Базу можно:
- Создать самому. Нужно накачать фильмов, пережать их в формат .flv (можно и не пережимать, но тогда будет расход трафика больше). Залить это всё к себе на хостинг и раздавать. Затраты только на хостинг будут в пределах $150/месяц. Конечно и прибыль будет совсем другой
- Использовать сторонние расширения для просмотра фильмов онлайн с торрентов. Например вот это. Но тогда пользователям нужно установить расширение для браузера, а они на это очень редко соглашаются. Хотя плюсов у этого решения очень и очень много.
- Брать контент у других сайтов — других онлайн кинотеатров, хостингов видео — рутуба, вконтакта… Естественно если человек просит скопировать онлайн фильмы, так он и не думать к ним контент, потому берем сразу и описание фильмов, и постер, и скриншоты.
В этой инструкции я вам покажу как собрать фильмы с трех разных источников, привести все в божеский вид и разместить у себя на сателлитах. То есть идем по третьему варианту. Буду показывать на примере платных инструментов, в будущем я сделаю подобную инструкцию, с помощью которой можно будет сделать абсолютно бесплатно сайт с онлайн фильмами. Итак, нам понадобится:
- Парсер контента Content Downloader;
- Программа для обработки и импорта контента в движки Зеброид;
- Если что нужно будет ещё — напишу по мере необходимости.
Шаг первый — поиск подходящего донора
Сайтов с онлайн фильмами в интернетах очень много, но многие из них сделаны с ошибками, имею недостатки и защиту. Поэтому искать будем очень внимательно. Бросив клич в google, я получил подобного рода картину
Рассмотрим подробней какие предложения есть:
- http://zonakino.net/ — красивый сайт, но недостатки — всего 540 фильмов и фильмы хранятся на стороннем сервере, так что скорей всего стоит защита, и на нашем домене фильмы прост оне будут воспроизводится. — 3953 записи. Но посмотрев исходный код страницы, я обнаружил что плеер использует какой-то дополнительный код для просмотра, значит скорей всего стоит защита от таких хитрецов как мы — 16 страниц по 10 записей. Мало контента. Плюс бегло просмотрев пару записей, я увидел обилие рекламы. Неужен нам такой мусор — 6962 записи. Внушительно, правда сколько из них рабочих? Правда стоит защита
- …
- Понравился мне http://www.kinopolus.ru/ — много контента, много разных источников для просмотра сериалов и что очень удобно — многие фильмы размещаются на серверах vkontakte.ru — надёжность и скорость работы.
К нему я выбрал ещё несколько подобных сайтов. Дабы вы полностью не копировали мою работу — выберете таких доноров сами.
Сделаю краткое отступление и расскажу как я: [wpspoiler name=»Определяю количество записей» ]Вариант раз — большинство сайтов сделаны на DLE, у этого движка при установке предлагается вариант ЧПУ тип2. Что значит что в URL адресе страницы кроме транслитерированного заголовка статьи указывается также ID записи. И чем больше этот ID — тем больше записей. На сайте из 6 примера у нас последняя запись имеет ID 15447 — что значит что на сайте есть (или было) 15447 статей. Что очень даже ок. Подобная фишка есть у многих движков. Нужна будет помощь — в комменты. Вариант два — смотрите в футере сайта нумерацию страниц. На нашем примере 946 страниц. Умножаем на 10 записей на странице — получаем уже 9460 — примерно столько (+/- 10) статей с фильмами на этом доноре. [/wpspoiler] [wpspoiler name=»Смотрю на каком сервере размещены фильмы» ]Этому вы научитесь очень быстро. Например фильмы, размещенные на Вконтакте, заметны сразу. Вот интерфейс вконтакстовского плеера, слева внизу написано) Ну а вобще я захожу на страницу с плеером и смотрю исходный код страницы (ctrl+U) и смотрим расположение файлика с видео. Вот как на этой страничке будет выглядеть. По своему опыту я уже знаю что скорей всего файлы доступны для просмотра только с этого домена. Если вы сомневаетесь — сохраните страничку на диск, и откройте. Если будет отображаться видео — значит все ок, в противном случае — ищите другого донора[/wpspoiler]
Следующим шагом будет собственно парсинг этого сайта
Показывать я буду по скриншотам, а внизу разбирать полёты
- Это стартовый адрес, на основе которого мы будем генерировать все страницы. Изначально адрес страницы был http://www.kinopolus.ru/13724-brak-po-zaveshhaniyu.html. Учитывая особенности ЧПУ CMS DLE, я знаю что эти цифры id статьи, и если поставить другую цифру — откроется другая статья (если она существует). На месте цифры я поставил переменную , генерировать будем в 5-6 пункте
- «Парсить заданные части документа«, «Использовать шаблон вывода«. Эти пункты мы настроим по следующим скриншотам.
- Убираем галочку «Загружать изображения«. Они нам сейчас не нужны, только лишний мусор на винчестере, и как следствие при больших объемах — торможение.
- Укажите удобный путь, куда сохранять файло. Под каждый проект я создаю отдельную папочку, так удобней потом искать.
- Здесь указываем первую и последнюю цифру, которую программа должна подставлять вместо . А — мы задали в том месте, где CMS DLE подставлял id записи. Понятно, или объяснить подробней?
- Ну и кнопочка собсно запуска генератора страниц для парсинга
Ну вот и все. Теперь нужно задать что парсить на конкретных страницах. Итак, давим кнопочку возле пункта #2, напротив «Парсить заданные части документа«. Получаем вот такую картину
- Это собственно задаем границы парсинга. Задать границы — значит выбрать какие элементы на странице нам нужны. Ведь всю страничку со всем мусором нам не нужно, правды? Нужен только контент, который включает в себя — название статьи, описание фильма и сам фильм. Также неплохо было бы получить категорию, в которой этот фильм есть
- Это, собственно говоря, кнопочка для задания границ, нажав на неё — попадаем в дивный мир странички внутри — исходного кода страницы. Об этом немного ниже.
- Ну и третий пункт — настройка получаемого результата. Его мы будем делать как зададим границы парсинга.
Итак, давим вторую кнопочку и получаем:
- Первым делом нужно включить браузер. Он появится в нижней части панели (на скриншоте он уже включен). С браузером нам будет легче ориентироваться
- Итак для начала мы выбираем где у нас находится заголовок статьи. Можно просто клацнуть на элементе внизу, и КД автоматом вас перекинет к нужному коду (там где #4 и #6).
- Ещё можно выделить кусок текста и скопировав его попадаем в меню поиска по html коду, ну это в том случае, если пункт 2 вам не помог найти нужный элемент.
- Как видим, возле заголовка статьи слева и справа стоит html код. Так как это движок, и форматирование у каждой страницы должно быть одинаковое, мы, включая логику, понимаем что тот код который слева мы можем использовать для задания начала парсинга
- Вот тут задаем начало парсинга. Просто выделяем элемент с #4, и давим кнопочку 5
- По аналогии с четверкой — код справа — закрывающий тайтл, значит его можно использовать для задания конца границы парсинга
- Вот в этом пунктике
- На данный момент Content Downloader поддерживаем 20 обычных границ парсинга. Что бы не путаться — запомним (или запишем), что граница парсинга #1 у нас отвечает за заголовок статьи
- Сохраняем настройки этой странички и переходим к заданию границ парсинга #2
- Я задал границы по этоу элементу
- Так как вижу визуально что он ближе всего к контентной части, после него сразу идет картинка и собственно текст
- Хотя возможно было правильней цеплять за этот элемент, так как он нормально выражен в html коде, и скорей всего не изменяется на остальных страницах. Но всёже я рискну — потом работы будет меньше по очистке контента от мусора
- А тут я поступил совсем наоборот, задал по окончанию поста — ну если внимательно посмотреть на html код странички включив логику и поняв английское слово «post-data»
- Хотя логичней было бы задать по началу этого дива, и избавиться от кучи мусора (#6), но я не уверен в этом диве, возможно он есть только на нескольких страницах
По сути у нас уже есть заголовок, и есть статья с видео. Ниже 4 пункта можно увидеть что есть и категория. Я задаю её в границах парсинга #3.
Жмем готово справа внизу и переходим к «шаблонам вывода»
Тут все довольно просто. Здесь задаётся шаблон, по которому будет выводится результат. Как мы помним — граница #1 у нас заголовок статьи, граница #2 — сама статья и #3 — рубрика. Что бы удобней было импортировать в Зеброид и не терять структуры документа я поставил на первое место рубрику, потом название фильма и описание фильма с самим фильмом.
В Зеброиде стандартный импорт из html страницы сработает и поймет мою структуру. Главное — название категории выделить тегом H1, а название статьи выделить тегом H2. тогда все будет ок;)
Ну что же, жмем «Готово», переходим на главное окно, сохраняем проект (обязательно сохраняйте, вдруг что не так — что бы потом быстро можно было переделать). Ну и стартуйте. Через некоторое время весь сайт спарсится в множество отдельных файликов, готовых к импорту в Зеброид.
Шаг три — обработка контента онлайн фильмов
Ну тут можно оставить мои стандартные настройки.
Если же у вас Зеброид из стандартного набора, не забудьте добавить на вкладке «Пост обработка» добавить в список исключения больше тегов, а то получите вместо контента с фильмами немного так кашу;)
И вот, мы импортировали (у вас там будет много больше записей, но мне для показа будет достаточно и этого). И у нас получился полный звиздец.
Как видим — Зеброид правильно распознал где у нас рубрика, а где статья. Но сам просмотр фильма добавил в новосозданную категорию.
[wpspoiler name=»Это случилось потому …» ]Да все очень просто — раз Зеброид создал новую категорию, значит что-то выделялось тегом H2 в статье. А выделялась надпись перед самим плеером «Просмотр фильма такого-то». Итого у нас получилось статья вида
Категория фильма
Название фильма
Описание фильма, все дела…
Смотреть такой-то фильм онлайн
Коды плееров фильмов Понятно что такие дела нас не устраивают. Думаю в ближайшем времени такую беду сделают невозможной в Зеброиде, но пока нет апдейта — я покажу как выхожу из ситуации я. Немного ниже;) [/wpspoiler]
Нас это нихт не устраивает. Для решения вопроса мы будем применять современные нанотехнологии и смекалку. Ну конечно нам ещё понадобится отличная софтинка по очистке текста — [download >
Нужно будет — как-то распишу функционал и возможности. Сейчас же скажу кратко — програма позволяет визуально настроить работу регулярных выражений и так фильтровать и чистить текст, что вы и никогда и не думали о таких возможностей. Программа русскоязычна, советую хотябы мельком глянуть весь функционал. Сейчас же нам понадобится поиск/замена. [wpspoiler name=»Задача» ]Есть дублирование тегов в одном отдельно взятом файле. Первые теги h1, h2 у нас идут правильно, потмо в статье домешиваются лишние теги h1 и h2, которые ломают структуру. Нужно — убрать все теги h1 и h2 кроме первых.[/wpspoiler] [wpspoiler name=»Решение» ]Переименовать все теги h1 в h3, а h2 в h4. Потом переименовать только первый тег h3 обратно в h1, аналогично поступить с h4. Только первый тег![/wpspoiler]
Решение визуально я сделаю в видео. Эта проблема, я надеюсь, будет устранена в ближайших версиях Зеброида.
Ну и дальше я займусь банальной очисткой контента и приведения вот этого мусора
с вот таким вот внешним видом
в вот такую красоту по коду
которая будет выглядеть вот так (там где недогрузилась картинка — там плеер, с ним все ок, просто не отображается)
После того как я почищу контент, я провожу следующие процедуры:
- Добавлю метки (ключевые слова) к каждой записи. Это позволит немного оптимизировать страницу с контентом (ведь они у нас будут прописаны в метатегах)
- Сделать внутреннюю перелинковку внутри сайта по частоупотребляемым ключевикам, что повысит скорость индексации сайта, распределит и даст больше веса внутренним страницам и как следствие — поднимет по НЧ запросам
- Добавлю планировку публикаций по времени — это создаст видимость рабочего, постоянно пополняемого сайта, без каких-либо телодвижений с нашей стороны
- Скачаю все изображения к себе на хостинг. Это позволит исключить удаление картинок с сайта-донора и не позволит испортить внешний вид статей нашего онлайнкинотеатра
- Возможно добавлю ещё коментарии в автоматическом режиме — это создаст видимость нормального, живого сайта
- Залью на какой-то популярный движок, скорей всего CMS DLE
- Ну и залью на бесплатный хостинг — ucoz
В итоге мы получаем отличный сайт с онлайн фильмами, коих и так уже огромное количество, но которые все продолжают приносить доход своим владельцам.
Как вы видите из урока — имея в руках нужный софт и обладая минимумом знаний можно за несколько часов создать самому отличный сайт онлайн фильмов. Темболее что напарсив контента с 5-7 доноров и перемешав его, можно получить десяток хороших трафикоприносящих сателлитов. Это займет у вас максимум двое суток времени.
- Установка удобного вам движка
- Все нужные работы по контенту (что я описывал выше)
- Подбор паблик шаблона и минимальное приведение его в божеский вид, уникализация (минимально)
Все вопросы с работой Зеброида и КонтентДаунлоадера можно задать в соответствующих статьях, в комментариях к этой записи. а также любым, удобным для вас способом связи со мной.