"Мой муж обманщик". Поисковые запросы раскрыли тайные мысли пользователей
Запросы из поисковиков и сайтов для взрослых — самые правдивые и объективные. Люди, привыкшие прятать свои настоящие мысли и чувства, вбивают в строку поиска то, что их действительно беспокоит. Полученные таким образом огромные массивы информации показывают, что пользователи думают на самом деле, а не то, что говорят, делают или постят в соцсетях. Как ученые работают с этими данными и сильно ли они отличаются от результатов традиционных исследований — в материале РИА Новости.
Сетевой вирус
В 2008 году поисковая система Google запустила приложение "Тенденции гриппа от Google" (Google Flu Trends), которое должно было по ключевым словам, вводимым пользователями в поиске, отслеживать, где и как быстро распространяется инфекция. Разработчики считали, что уровень заболеваемости гриппом напрямую связан с числом поисковых запросов о том, как его лечить.
В результате, ориентируясь на такие поисковые фразы, как "симптомы гриппа" и "боль в мышцах", Google выпустила отчет о скорости распространения сезонного гриппа раньше, чем Центр по контролю и предотвращению заболеваний. Статья сотрудников корпорации с подробным описанием, как они работали с информацией, извлеченной из поисковой системы, была опубликована в Nature в 2009 году. И ученые всего мира обратили внимание на новый источник данных — поисковое поведение людей в интернете.
Темная сторона общества
К 2018 году в мире насчитывалось около семисот научных работ, основанных на больших данных, полученных из поисковых запросов. Около половины исследований относились к компьютерным наукам, остальные — к биологии, медицине, экономике и социологии.
Причем именно в общественных науках результаты оказались самыми неожиданными. Так, написанная в 2013 году работа экономиста Сета Стивенса-Давидовица продемонстрировала, что среди американцев все еще распространены расистские взгляды и предрассудки, хотя традиционные замеры общественного мнения говорили обратное. Проанализировав огромный массив данных за три года (с 2004-го по 2007-й), Давидовиц установил, что слово "негр" (nigger), имеющее резко отрицательную окраску, вбивается в поисковую строку так же часто, как "мигрень" или "экономист".
"Могущество и власть гигантских поисковых систем в том, что люди доверяют им то, о чем не могли бы сказать никому другому. Многие американцы, находясь одни дома, делают шокирующие расистские запросы. Темная сторона общества, которую невозможно выявить традиционными способами, видна при анализе больших данных, извлеченных из поисковиков", — говорил Давидовиц на Geek Picnic в Москве.
О чем молчат женщины?
Большие данные из интернета способны полностью изменить современную науку, указывает российский социолог Катерина Губа. Ученые теперь имеют дело с данными, которые производятся самими пользователями здесь и сейчас (люди пишут посты, ставят лайки, загружают фотографии), а не собираются по заранее определенной процедуре и в соответствии с уже имеющимися гипотезами.
Впрочем, Давидовиц уверен, что доверять постам и лайкам в социальных сетях не стоит. Главная сыворотка правды — это анонимные запросы в поисковых системах и на порносайтах.
"Обезличенные данные — кладезь для социологов в таких темах, как самоубийства, аборты, страхи, насилие, религиозная нетерпимость, секс. То, что люди никогда не скажут, не напишут в социальных сетях, они вобьют в строку поиска", — отметил ученый в том же выступлении в Москве.
Любой традиционный опрос (даже если он считается анонимным) проигрывает данным поисковиков по уровню честности. Если сохраняется незначительная возможность идентификации, человек старается казаться лучше, чем он есть на самом деле. Поэтому, например, в Facebook фраза, начинающаяся словами "Мой муж…", обычно заканчивается "романтичный", "заботливый", "самый лучший", в то время как в Google наиболее популярны варианты "мой муж обманщик" и "мой муж алкоголик".
Смещения неизбежны
Давидовец в книге "Все лгут. Поисковики, Big Data и интернет знают о вас все" пишет, что большие данные из поисковых систем позволяют спрогнозировать подорожание недвижимости, результаты президентских выборов и рост уровня безработицы — последнее исключительно по растущему числу запросов, связанных с порно, и увеличению времени, проводимому пользователями на сайтах для взрослых.
Однако, как отмечает Олег Стребков, доцент факультета социальных наук НИУ ВШЭ, при анализе больших данных, извлеченных из интернета, надо учитывать некоторые нюансы. Так, выборка, составленная из пользователей Всемирной сети, может быть нерепрезентативна по отношению к генеральной совокупности — жителям исследуемого региона. Социально-демографическая структура онлайн-пользователей сильно отличается от структуры российского населения в целом: в интернете преобладают люди с высшим образованием, молодежь, жители больших городов. Практически не представлено старшее поколение, а те, кто есть, пользуются ограниченным числом ресурсов (многие ограничиваются социальной сетью "Одноклассники").
"В отношении социологических опросов, проводимых в интернете, мы уже научились уравновешивать эти смещения. Например, присваиваем более редкой категории пользователей больший вес в опросах. Как сделать это с большими данными, пока непонятно", — подытоживает эксперт.