Анна Ларкина, эксперт по контентному анализу из «Лаборатории Касперского», рассказала нам о том, как научить робота определять даже самое специфичное порно, изменились ли за десятилетия вкусы подростков в интернете и почему важно фильтровать контент.
Порно и роботы
В чём состоит работа порноаналитика?
Это скорее моё шуточное название внутри компании. Официально должность называется «эксперт по анализу веб-контента». Часть моей работы посвящена категоризации и фильтрации сайтов, где содержатся порнография, насилие, наркотики и другие темы. Всего порядка 90 разных категорий, по которым раскладываются сайты в интернете. И на базе этой фильтрации разрабатывают некоторые продукты «Лаборатории Касперского», например Safe Kids.
Я обучаю роботов, помогаю разработчикам и мониторю тренды, которые вписываются в нашу категоризацию. И это — только часть моих обязанностей.
А как вы обучаете роботов?
Есть тематика, которую роботу нужно «скормить». Например, новый вид наркотика. На эту тему наша команда находит определённое количество веб-страниц, которые загружают роботу. При этом мы показываем, что относится к контенту, который надо поймать, а что — нет. Робот изучает паттерны, а мы корректируем, что он находит. И дальше робот уже работает сам.
Наверно, сейчас будет глупый вопрос, но что, если подросток захочет прочитать про наркотики для просвещения, а не чтобы их изготовить. Энциклопедический контент на подобные темы тоже блокируется или система его всё же пропускает?
У нас есть правило, которое касается детских продуктов: все образовательные ресурсы, включая энциклопедии для подростков, добавляем в исключения, которые не блокируют. Такие ресурсы мы загружаем в категорию «образование».
Окей, тогда возникает другой вопрос. Когда обсуждают блокировку порнографического контента, как быть с произведениями искусства, где изображены голые люди?
Я, кстати, искусствовед по образованию, поэтому достаточно близко знакома с темой изображения обнажённой натуры в искусстве. Наш категоризатор работает в первую очередь на базе текстового контента. Возьмём для примера сайт музея. Там размещены фотографии картин и античных скульптур и их описание. В этом описании нет сексуального контекста. Рядом с такими фотографиями никогда не будет стоять подпись в стиле «девочки за 200». Поэтому система не увидит запрещёнки. Нет смысла блокировать изображения, которые явно не несут в себе сексуальный характер.
Если вы работаете с разным контентом, то как закрепилось звание порноаналитика?
Потому что сначала было порно. Когда мы ещё только запускали категоризацию, было очевидно, что в первую очередь нужно фильтровать порно, наркотики и насилие.
«Наркоаналитик» или «насилиеаналитик» звучит не так круто. И так я стала первым порноаналитиком в «Лаборатории». Коллеги подшучивали, спрашивали, правда ли, что я всё время смотрю порно и сижу в комнате без окон.
А вам действительно приходилось смотреть порно? Вообще зачем различать и категоризировать эту сферу, если блокируется любой порноконтент?
Изначально, когда мы начинали, ещё не было никаких роботов. Контент приходилось отсматривать вручную.
Да и сейчас не получится просто один раз дать роботу контент и сказать, что это порно. Он не сможет распознать специфические ответвления порнографии. Например, приходит запрос от пользователя, что не блокируется определённый сайт. Мы понимаем, что робот не видит этот сайт, и идём смотреть сами, чтобы понять, в чём дело.
Не обязательно смотреть от начала и до конца. Обычно с первых секунд можно понять, что перед тобой порнуха. Хотя есть дико специфичные вещи. Например, сайт содержит фотографии котят в разных позах или женщин с переломанными ногами. Но по контексту понятно, что этот сайт — сексуальный фетишизм. Тут явно контент создавали те, кого это возбуждает, для тех, кого это возбуждает. Робот в этом случае приходит в панику и не понимает, что происходит. Мы открываем, смотрим и говорим: «Всё хорошо, это порно».
Наверняка на этапе запуска система сбоила. Возникали казусы в процессе обучения?
Да, однажды робот отправил в категорию «порно» сайт с огнеуПОРНыми трубами. Или фуд-порн — тоже кидал из-за созвучности. Мы потом вручную доставали всё обратно. Но это было в самом-самом начале.
Вы говорили, что робот различает контент по тексту. Что, если создатели порноконтента захотят обойти фильтры и завуалируют текст?
Это не выгодно самому издателю сайта, потому что в таком случае его не увидят поисковики. А это их основная цель.
Мы не цензура, ничего не блокируем — каждый пользователь решает сам, какие категории добавлять в блок, а какие — нет. Поэтому у большинства нет смысла уходить от наших фильтров. Мы просто даём пользователям инструмент.
Веб-анализ и подростковые тренды
Как вы, будучи искусствоведом, стали специалистом в IT?
Я училась в Германии, но понадобилось вернуться на время в Москву. Мне подвернулась работа: сделать дизайн сайта для клуба моих друзей. Они устраивали техно-вечеринки. Это были нулевые, работать с контентом было довольно просто. Я настолько влилась в работу, что не вернулась в Германию.
Чуть позже устроилась работать в Mail.ru. А ещё через полгода меня пригласили в «Лабораторию». И вот уже 11 лет я тут работаю и никуда не хочу уходить. Здесь постоянное развитие, новые темы и профессия интересная. Я всегда должна быть в тренде, причём в подростковом. Меня здесь всему научили, и вместе с моим начальником мы развивали всю контентную фильтрацию, о которой сейчас говорим.
То есть вы уже 11 лет наблюдаете за подростковыми трендами. Заметили что-то интересное?
Да. В начале нулевых подростки предпочитали слушать тяжёлую музыку, которая помогает выплёскивать негативные эмоции. У них был протест против мейнстрима. А сегодня подростки скорее любят мейнстрим. Уже не ищут что-то такое прямо андеграундное. Модно быть в тренде, а не противопоставлять себя ему. Современные подростки больше времени тратят на образование. Они далеко не только в TikTok сидят. Хотя даже там много образовательного контента сегодня.
Не трудно ли работать с тяжёлым контентом? Насилие, наркотики — тут можно уйти в тотальное уныние.
Сейчас я смотрю такие сайты суперредко. Контент хорошо распознаёт робот.
Но вначале да, такого было много. Приходилось два-три дня сидеть и выискивать расчленёнку. А 11 лет назад в интернете такого было гораздо больше. Было очень неприятно, особенно то, что касалось насилия над животными. Я могла заплакать. Но никто не заставлял рассматривать этот контент. Как только поняла, что передо мной, перевела взгляд в сторону.
Пожалуй, в этот момент я поняла, что делаю что-то полезное. Я один раз увижу этот ужас, и потом его не увидит большинство детей. Это помогало держаться. А с приходом алгоритмов работать стало гораздо легче.
Сейчас мы в команде дозируем контент. Перекидываем сотрудников на разные задачи. Никого не заставляем работать с травмирующим контентом неделями. Можно пойти поесть, прогуляться. Можно попросить, чтобы тебе дали другую работу.
💻Что ещё интересного почитать по теме
Порнография от античности до феминизма: почему она всё ещё не для женщин
10 причин уйти из соцсетей, или Почему нам всем стоит стать кошками (и котами!)
Родительский контроль и этика
С социальными сетями тоже работаете?
Мы фильтруем некоторый контент. В русском сегменте ищем опасные группы во «ВКонтакте» по нескольким категориям: насилие, знакомства для взрослых, алкоголь, табак, наркотики, порнография. Робот изучает список групп, на которые подписан подросток, и, если видит паблик из нашей фильтрации, подаёт родителю алерт: нужно поговорить с ребёнком. Оповещение приходит с подсказками от психолога.
Другие соцсети мы не мониторим из-за технических сложностей. Но выпускаем образовательные материалы для родителей. Нельзя запрещать пользоваться соцсетями, лучше научить, как это делать безопасно. Можно делать контент вместе с ребёнком. В TikTok, кстати, видео с родителями заходят.
Я иногда натыкаюсь на новости о странных трендах в TikTok. Например, подростки красили волосы с помощью химического состава, который мог вызвать чуть ли не нарушения нервной системы. Вы отслеживаете такой контент?
Опасные тренды, к сожалению, есть. Но даже сам TikTok сейчас такое жёстко фильтрует. Например, тренд, когда облизывали сиденье унитаза в протест против коронавируса. Плюс эти истории часто попадают в СМИ, а там уже подключаемся мы и в своих образовательных материалах разъясняем, почему пить таблетку для стирки — плохая идея.
А вообще все почему-то недооценивают детей. Зачастую они не настолько глупые, чтобы безмозгло что-то повторять. Некоторые так троллят взрослых. Делают вид, что пьют таблетку для стирки, а в стакане у них просто цветная газировка. Современные подростки очень хороши в постиронии.
Выходит, так или иначе вы следите за контентом соцсетей, где сидит очень много подростков. А на какой возраст рассчитана программа родительского контроля?
Примерно от первого планшета. Чтобы двухлетка случайно не открыл сайт с опасным контентом, пока мама отвлеклась, чтобы помыть посуду. Заканчивается в 12–14 лет, в зависимости от отношений родителей и ребёнка. Этот инструмент помогает понять интересы подростка, настроить с ним диалог.
Но ведь тут всё неоднозначно. Ваш инструмент могут превратить в оружие, когда родители жёстко контролируют жизнь своих детей. Подростки смотрят порно, и они имеют право на личное пространство.
На нашей команде большая ответственность, и мы это понимаем. Проводим образовательную работу с родителями и учителями, выпускаем статьи, привлекаем блогеров. Стараемся транслировать человечность и стремление к диалогу с ребёнком. Говорите с ним, слушайте его. Не используйте инструмент как запрет. Мы очень стараемся пропагандировать доверительные отношения в семье. Иначе в опасной ситуации ребёнок не обратится к родителям.
Кроме того, у нас не самый жёсткий родительский контроль. Есть совершенно бесчеловечные вещи, есть системы, которые подслушивают ребёнка без его разрешения. Все мы помним серию «Чёрного зеркала», если не помним, то смотрим. Очень полезная серия про то, как мать подсматривала за дочерью и к чему это привело. У нас на каждое действие есть совет психолога. Конечно, невозможно предусмотреть всё. Но в современном интернете лучше, когда такой инструмент есть, чем когда его нет.
Автор иллюстраций: Вика Анистратова
Станьте первым, кто оставит комментарий