?

Log in

No account? Create an account
Анализатор постов в ЖЖ - Самые обсуждаемые темы блогосферы — ЖЖ [entries|archive|friends|userinfo]
Самые обсуждаемые темы

[ website | ТОП30 - рейтинг блогосферы ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Links
[Links:| ТОП30 - рейтинг блогосферы Разворачиватель комментариев ]

Анализатор постов в ЖЖ [май. 14, 2019|07:00 pm]
Самые обсуждаемые темы
[Tags|]

Вдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)

Вот что у меня получилось

Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).

Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях — это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.

Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.

Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.

Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).

ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.

Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)

В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, — “портрет”, “картина”, “статуя” и тому подобное. У Эволюции — сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.

Благодарю за помощь советами и бета-тестированием mozgosteb, bearinbloodbath и rheo_tu



источник - sel_kie 
[0 ссылок 50 комментариев 4150 посещений]
читать полный текст со всеми комментариями
СсылкаОтветить

promo topbloger november 1, 2020 19:44 232
Buy for 40 tokens
Привет! В моем блоге автоматически топботом собираются все самые интересные темы блогосферы. Более полно посмотреть все интересные посты блогосферы вы можете на сайте t30p.ru. Узнать какие из ваших постов попадали в ТОП 30 можно на сайте topbloger.ru. Подписаться на чтение самых…