Годовой план Фонда Викимедиа/2023-2024/Продукты и технологии/Цели и ключевые результаты

This is an archived version of this page, as edited by Avalkov tr (talk | contribs) at 15:19, 29 September 2023. It may differ significantly from the current version.
Note – This page's translations will be maintained by the WMF every 3 months, until mid-2024:
AR, FR, PT, RU, ES, JA, UK, ZH, SW, HI

Данный документ представляет собой "часть 2" ежегодного процесса планирования 2023-2024 гг. для Отделов продуктов и технологий Фонда Викимедиа. Он фокусируется на черновой версии целей и ключевых результатов данных отделов (OKR) в Годовом плане 2023-2024 гг. "Часть 1" прояснила портфели предварительной работы (формально называемые "корзинами"), а также теорию и планирование, лежащие в основе данного документа.

Несмотря на то что данный документ завершен, предполагается, что ключевые результаты, а также лежащие в их основе предпосылки будут постепенно обновляться в течение периода годового плана 2023–2024 гг. по мере получения практического опыта.
Цели v2 (v1) Ключевые результаты Объяснение

WE1: Восприятие участников

Поддержка развития высококачественного и актуального содержимого в самой лингвистически разнообразной, надежной и всеобъемлющей экосистеме свободных знаний посредством обеспечения и поддержания первоклассного и комфортного пользовательского опыта.

Контекст. Чтобы сосредоточиться на одной вещи, мы должны пойти на компромисс относительно другой. Мы намереваемся сосредоточить усилия на поддержке самого контента, модераторов контента и внесения правок с мобильных устройств, на поддержке онлайн-кампаний, а также снижении числа IP-блокировок. Чтобы сосредоточиться на данных вещах, мы должны сделать поддержку очных мероприятий и вопросы продуктивности новых редакторов менее приоритетными (за исключением ключевых результатов по IP-блокировкам).

Обсудить

1. Увеличение количества неаннулированных правок с мобильных устройств в главном статейном пространстве имен в Википедии в среднем на 10% по всему представленному диапазону вики-проектов. Данный ключевой результат обеспечивает активное поощрение редактирования контента с мобильных устройств как посредством деятельности, поддерживающей другие ключевые результаты (например, модерация и охват контента), так и посредством деятельности, в первую очередь ориентированной на внесение правок с мобильных устройств. В течение последних трех лет редактирование контента с мобильных устройств выросло на порядка 20%. Если мы найдем способы увеличить его еще на 10% в течение лишь одного года, это станет опережением естественного уровня роста.

Данный ключевой результат включает в себя как вебсайты, так и приложения. Он является "усредненным по всему представленному диапазону вики-проектов" для обеспечения того, что мы вносим улучшения, полезные для большого числа вики-проектов, а не только для самых крупных. Сами вики-проекты мы определим позднее.

2. Внесение усовершенствований в четыре рабочих процесса, улучшающих опыт редакторов с расширенными правами (администраторов, патрульных, функционеров и модераторов всех типов). Развитие их творческого потенциала. Влияние на как минимум четыре вики-проекта и достижение ключевых результатов по каждому набору улучшений совместно с волонтерами. Пока мы еще не знаем, является ли конкретная цель, например, снижение количества нерешенных вопросов, тем, что хотят от нас выполняющие модераторскую работу редакторы. В конечном итоге, мы хотим использовать наши ресурсы для повышения уровня их удовлетворенности и развития у них способности создавать и управлять рабочими процессами - это и означает "развитие их творческого потенциала". Данные члены сообщества создали изумительные вещи, и одним из наилучших способов помочь является стимулирование творчества посредством платформ, конечных точек, шаблонов и других инструментов. Количество рабочих процессов равно четырем, так как предполагается, что столько команд будет работать над данным ключевым результатом. А количество вики-проектов, равное четырем, предполагает, что мы будем мотивированы распространить наше влияние на многие проекты по мере возможности. Данный ключевой показатель подразумевает нашу работу с задействованными волонтерами для определения актуальных ключевых результатов по каждому усовершенствованию, чтобы мы могли согласовать степень нашего влияния. Обратите внимание, что работа над процессами, используемыми другими участниками, отличными от выполняющих модераторскую работу редакторов, может улучшить их опыт. Например, работа по повышению качества первых статей новичков может оптимизировать нагрузку на патрулирующих новые статьи.
3. Рост в 10% (в течение года) в доле статей, создаваемых в вики-проектах средних размеров, по важным темам с приемлемым качеством согласно "глобальному рейтингу качества". Важные темы выбираются в рамках сотрудничества между отделами - в качестве отправной точки можно использовать вопросы пола и географии. Данная метрика отражает рост качественного контента по актуальным темам в течение определенного периода времени. В частности, целью является прирост в 10% в количестве статей с хорошим качеством по актуальным вопросам при использовании предыдущего года в качестве отправной точки. Например, если в прошлом году 20% статей в важных категориях удовлетворяли критериям, предлагаемый показатель должен достигнуть 30%.

Предполагается, что данная метрика будет полезной для задания направления, но и достаточно гибкой, чтобы команды могли определять свою стратегию и отслеживать прогресс. Мероприятия по достижению этой цели могут сосредотачиваться на улучшении качества существующих статей по выбранным темам или же на поощрении создания новых статей по данным темам. Команды могут оценивать свою работу путем сравнения квартальных или годовых результатов с аналогичными показателями предыдущего года. Показатели, такие как качество и актуальность, являются трудно измеримыми. Качество статьи определяется глобальным рейтингом качества, который основывается на различных параметрах статьи, таких как количество разделов, сносок и ссылок. Темы статей будут определены аналогичным образом в результате сотрудничества команд, работающих над анализом пробелов в знаниях, с использованием их наборов данных.

Это соответствует метрике оценки содержимого в рамках всего Фонда с учетом как количества, так и качества - что означает достижение эффекта как при создании новых статей, так и при усовершенствовании существующих. "Важные темы" - это концепция из Рекомендации стратегии движения №8: "Определение важных тем". Вопросы пола и географии являются темами, которые наше движение обозначило как имеющие значительные пробелы в знаниях и для измерения которых оснащена наша исследовательская команда.

Пример того, как это может формулироваться (в случае успеха): "Ранее только 10% из XX статей Википедии по теме искусства, музыки или кинематографа удовлетворяли критерию качества YY. Теперь их - 15%."

4. Рост в X% в доле IP-блокировок, по которым подается апелляция, при неизменной или уменьшающейся доле апелляций, по которым производится разблокирование. Блокировки по IP являются основным инструментом нашего движения по нейтрализации нарушителей на наших сайтах, но это также имеет негативный эффект, выражающийся в блокировке добросовестных пользователей. Это оказывает особенно негативный эффект на новых редакторов и на программы сообщества. Не существует надежного способа измерить количество ошибочно заблокированных, но мы можем его приблизительно подсчитать зная какое количество из них просят пересмотра блокировки (т.е. подают апелляцию). В то же время барьером для осуществления этого является то, что наш процесс апелляций труден для обнаружения и выполнения с точки зрения пользователей. Следовательно, данный ключевой результат отражает нашу попытку сосредоточиться на улучшении ситуации с IP-блокировками по двум направлениям. Во-первых, подразумевается, что процесс подачи апелляций станет прозрачным для пользователей в той степени, что мы увидим больше заблокированных пользователей, подающих апелляции. Кроме того, предполагается, что в первую очередь будет уменьшен объем ошибочно заблокированных посредством анализа количества удовлетворенных апелляций. Другими словами, если мы можем блокировать только заслуживающих того пользователей, мы увидим, что лишь небольшая часть из них будет разблокирована. Данный ключевой результат может породить широкие дискуссии общего и технического характера о природе IP-адресов и о нашем их использовании, а также и о рабочих процессах и загрузке функционеров, контролирующих данные процессы. По мере взаимодействия с членами сообщества мы сможем обнаружить более совершенные способы измерения прогресса в вопросах IP-блокировок и сосредоточиться на других метриках. [См. последнюю информацию]

WE2: Опыт прочтения и использования медиа-ресурсов

Создание современного, актуального и доступного опыта прочтения и использования медиа-ресурсов на наших проектах.

Контекст. Мы хотим сосредоточиться на увеличении количества уникальных устройств, повышении уровня внутреннего обнаружения и вовлеченности без редактирования. Для достижения этого мы должны сделать менее приоритетными вовлеченность посредством изображений и звука, а также проблемы доступности, проистекающие извне. Ключевой результат ниже также отражает данный фокус.

Обсудить

1. Обеспечение опыта прочтения с высоким качеством для всех пользователей посредством адаптации стандартной среды для 15% просмотров страниц в зависимости от индивидуальных потребностей и ограничений пользователя. Данный ключевой результат сосредоточен на возможности адаптации нашего интерфейса в зависимости от индивидуальных потребностей, если это необходимо. Теоретически люди будут ощущать себя в большей степени вовлеченными при использовании вебсайта или интерфейса, который адаптируется в зависимости от их потребностей. Это может включать в себя такие функции, как настройки темного режима экрана, плотности текста и страницы, а также размера шрифта. Некоторые из таких приспособлений могут производиться автоматически в самом интерфейсе - например, путем создания адаптивных функциональностей или инструментов, обеспечивающих включение темного режима в зависимости от настроек устройства или браузера пользователя. В других случаях данная адаптация может производиться путем явных настроек, что позволит пользователям выбирать нестандартные конфигурации в особых (но ограниченных) случаях. Касательно доступности внимание будет уделено отдельно создаваемым функциональностям, повышающим уровень доступности или позволяющим задавать более удобные с точки зрения доступности стандартные настройки, но в тоже время сохраняющим возможность изменения настроек для людей с другими предпочтениями. Перед получением цифры в 15% мы изучили то, как пользователи настраивают стандартную среду в приложении Wikipedia iOS. Порядка 59% пользователей используют нестандартную тему (темную, черную, сепию). Мы взяли данное число за основу, но учли наше предположение о том, что постоянные пользователи с большей вероятностью потратят время на настройку своей читательской среды в отличие от случайных пользователей.
2. Interested readers will discover and browse more content, measured via a 10% increase in internally referred page interactions in representative wikis. This KR is focused on making it easier for interested readers to discover content by exploring different content discovery methods or entry points. The goal is to provide readers with these options in specific moments of their journey or after specific actions which indicate that they’re interested in learning more. "Page interactions", in this context, is inclusive of all the ways that a user can interact with content beyond just looking at a page (page previews are an example). "Internally referred" means that we'll only be counting those page interactions that happen after a user already starts their session on our property (i.e. excluding the first time they land on the site, which usually happens through a search engine referral).
3. Deepen reader engagement with Wikipedia via 0.05% of unique devices engaging in non-editing participation. This KR focuses on deepening reader engagement, while also exploring ways in which readers can contribute to our projects that are not editing pages. We hypothesize that there are people who are interested in getting involved with the wikis but for whom editing of any kind is too big of a leap. We want those people to have a way to get more deeply involved, perhaps becoming more committed readers, or eventually becoming comfortable enough to edit. "Non-editing participation" refers to any actions users can take on the wikis besides editing (we are also counting edits to discussions as 'editing'). While our websites don't have any of this, our apps do, in the form of reading lists or sharing content to social media. This work could include letting users configure their own personal reading experience, or could also focus on sharing content across the wiki, curating, and suggesting content to others. The KR is inclusive of work on the mobile and desktop websites and the apps. For mobile and desktop it may include the adoption of some non-editing participation functionality that exists on the apps. For the apps, it may include improving on existing functionality or building out new ideas. The number 0.05% is approximately the ratio of editors to unique devices -- so perhaps in the first year of this feature set, we see a similar ratio for non-editing participants, which would eventually increase to greater than the number of editors in the future. [See update note]
4. Improve web site performance for users in South America, starting with a reduction of p50 latency for users in Brazil by at least 100 ms This KR focuses on improving web-site performance in an under-served region. Research suggests that a significant and noticeable reduction in web site response time improves user engagement. As part of this KR, we will improve web site response times in South America, e.g. by deploying an additional cache site in the region. Although we anticipate the first significant impact to be measurable in Brazil by the end of the fiscal year, the entire region is expected to see significant performance benefits shortly after.

WE3: Knowledge Platform

Increase collaboration and efficiency among software developers by improving the development process for MediaWiki

Discuss

1. Reduce fragmentation in developer workflows, achieving 75% adoption of at least one officially supported developer tool in active use. The goal of this key result is to provide standard development tools that meet the needs of most Wikimedia developers. We also aim to be able to replicate production-like environments for a wider range of components at the development, testing and deployment stages. By accomplishing this, we will provide a better developer experience. This experience will allow engineers to onboard more quickly, assist each other when running into difficulties and deploy new features to production with greater confidence. This work is not intended to serve all developer workflows in the first year, but to make improvements in the areas that most impact developer productivity.
2. Increase by 20% the number of authors that have committed more than 5 patches across a specific set of MediaWiki repositories that are deployed to production. Increasing the number of people willing and able to contribute to the MediaWiki code base will make it less likely that a team gets blocked when changes to MediaWiki core are needed. It also makes it less likely that workarounds are created that add technical debt. In addition, this metric shows that the code base is becoming easier and safer to contribute to without unexpected effects.
3. Resolve and document 4 major points of technical strategic direction/policy/process. Product and Technology leadership has identified key areas where strategic direction is needed to increase the impact of technical work. Examples include defining an approach to support for MediaWiki outside Wikimedia and creating a policy for open-source software. Defining a strategic direction for these topics will mean increased efficiency and more cohesion in Wikimedia’s technical direction.
Objectives v2 (v1) Key Results Explanation

SDS1: Defining essential metrics

Each metric and dimension in our essential metric data set is scientifically or empirically supported, standardized, productionized, and shared across the Foundation.

Context: Effective use of metrics to make strategic decisions at the Foundation requires us to measure and assess the impact of work using a common, reliable, and well-understood set of metrics. Ensuring that different teams working on different projects are using the same metrics with the same definitions to understand the impact of their work will allow us to align efforts across the Foundation, with affiliates, and with communities. These metrics will allow Foundation staff and communities to evaluate proposals for programs and product features and to monitor and evaluate results. And they enable the engineers who support the tools used in data preparation and analysis to deliver a higher standard of service by more precisely defining the scope of their work, making the effort more tractable with our current resourcing. Data is only as useful as it is accessible to users. Our metrics must have maximum accessibility for us to maximize their utility to all audiences. We will gather, organize, and make available the necessary information to guide appropriate use and prevent misuse.

Discuss

1. For three out of the four core metric areas, provide at least 1 scientifically or empirically supported metric which has a clear definition, calculation, data provenance, versioning, and designated data steward. If we are to use metrics to make strategic decisions, we must have a broadly shared understanding of how they are defined, how we measure them, when they have changed, and who is accountable for guiding the definition and maintenance of the metric. This will allow us to know that when teams work on moving a metric that they are working on the same goal.
2. For three out of the four core metric areas [content, contributors, relevance, sustainability], at least 1 dataset is fully and publicly documented with clear guidance on how to use it to guide strategic decisions. In order for staff and volunteers to be able to understand and use our metrics, we must share public documentation. Without this, the metrics will have limited utility. [See update note]
3. Establish and implement a process to ensure that our essential metrics continually evolve to support data-informed decision making. (moved from SDS2.4 to here) The world in which we operate and the technological environment around us are continually changing. Consider the range of changes in consumer electronics and information consumption in the last ten years, or the changes in what data may or may not be available to us. Our core metrics together represent a theory about how we make impact in the world. To ensure we continue to make impact, we must re-evaluate whether our theory remains true, whether we can continue to measure in the way we have, and to make adjustments as needed.

SDS2: Making empirical decisions

Wikimedia staff and leadership make data-driven decisions by using essential metrics to evaluate program progress and assess impact

Context: By using essential metrics to evaluate program progress and assess impact, we can ensure that we are making informed decisions that are backed by evidence. This allows us to stay focused on our most important goals, make adjustments as needed, and track our progress over time.

Discuss

1. 100% of our defined and produced essential metrics data is consistently described in a data catalog to include provenance and means of production. A data catalog is an essential piece of data management infrastructure that stores metadata in a consistent, searchable, and discoverable way. It supports proper use of data in other tools, and provides a baseline of means for compliance, for example with privacy policy. Describing our metrics in a data catalog unlocks other capabilities down the road.
2. Four cross-department Wikimedia initiatives adopt a core metric as a measure of progress or impact. If we want to make empirical decisions as an organization, then we must use these core metrics for more than on-platform product decisions. Having them used by other departments in a coordinated way will show us that adoption is real.
3. For three out of the four core metric areas, publish data reports that display measurements and trends based on core metrics, made available to the public. A data report provides a summary view of a metric area, and for many consumers of metric information, this will be the starting point.
4. (Moved to become SDS 1.3.)
5. Four feature teams use shared tools to evaluate and improve user experiences based on empirical data from user interactions. Creating shared tools that feature teams can use to measure the impact of feature changes will improve our efficiency by reducing the effort required to create and capture measurements and make it easier to align those measurements to our core metrics.

SDS3: Using and distributing data

Users can reliably access and query Wikimedia content at scale

Context: Search and discovery experiences are critical to how users experience our content. We must be able to deliver those experiences in a reliable, sustainable, scalable fashion to meet the needs of free knowledge distribution and discovery.

Discuss

1. Reduce the number of unsatisfied requests for Wikidata by 50% Right now, the infrastructure powering WDQS has well documented technical issues. These can cause user queries to the endpoint to fail in multiple ways – sometimes taking Blazegraph down. While the team has worked on ways to manage the data in Blazegraph (namely, reducing the graph size) as an approach to manage the situation, that is likely not a long term solution. In the long run, we need to find other ways for user needs for querying and retrieving Wikidata to be satisfied.
2. Identify and implement a way to measure editor and reader satisfaction with search, evaluate satisfaction, and use the evaluation to inform at least 1 product decision. One of the challenges with understanding what is worth improving about our on-wiki search experience is lacking a baseline measure of search user satisfaction, with editor and reader being two important categories of search users. We need to establish this baseline before seeking to improve it. Using it to inform a product decision closes the loop on an empirical path forward for search improvement. [See update note]
3. For each of the four core metric areas, at least one dataset is systematically logged and monitored, and staff receive alerts for data quality incidents as defined in data steward-informed SLOs. Logging and monitoring are standard operational practices to ensure reliability and quality of a service. In this case, we must implement these same practices for the core metrics. This will allow us to sustain data quality standards by understanding what qualifies as a deviation from the standards and knowing when there has been a deviation, so we can address it.
4. Three productionized non-privacy-sensitive essential metric datasets are publicly available. As is our practice with data distribution in general, we intend to make our essential metric data freely available, as much as our privacy policy and practices can allow. This is how we ensure access to affiliates, chapters, user groups, volunteers, and other interested parties in the public.
Objectives v2 (v1) Key Results Explanation Research

FA1: Describe multiple potential strategies

Through which Wikimedia could satisfy our goal of being the essential infrastructure of the ecosystem of free knowledge

Discuss

1. Participants in Future Audiences work are equipped with at least three candidate strategies for how Wikimedia projects (especially Wikipedia and Wikimedia Commons) will remain the “essential infrastructure of free knowledge” in the future, including the audiences they would reach, the hypotheses they test, and approaches for testing them.

Before the Future Audiences bucket digs in to investigate possible future work, we want to lay out the different strategies that we'll be investigating, and think through the questions that need to be answered to detect their viability.

Commons community members have explicitly asked us to think about the strategy for the future of Commons -- this KR ensures that we do, but that it also fits in with the larger product strategy thinking of the bucket.

Wikimedia External Trends 2023 overview highlighted a number of changes to technology and user behavior in search and content creation that pose potential risks to our movement's sustainability. This track of work will be aimed at diving deeper into how our projects and communities can continue to thrive in the face of different potential future challenges.

FA2: Test hypotheses

To validate or invalidate potential strategies for the future, starting with a focus on third party content platforms

Discuss

1. Test a hypothesis aimed at reaching global youth audiences where they are on leading third party content platforms, to increase their awareness and engagement with Wikimedia projects as consumers and as contributors One of the strategic directions we're sure we want to investigate is around the spreading of free knowledge on other platforms, like YouTube, Instagram, etc. A tremendous amount of knowledge is consumed in these places for free, and we don't yet do anything to facilitate that, nor do we yet have theories on how to gain participants and revenue from those places.
  • 2022 Brand Health Survey looked at how Wikipedia is seen by different age groups. It noted especially low scores among 18-24 year olds in some markets (US, Germany, South Africa), who gave Wikipedia a negative Net Promoter Score. Per the survey: "This poses a high risk for the future of the project and the movement as a whole."
  • The New York Times reported on evidence that global youth are increasingly spending time on social apps and less time using traditional search engines (which typically bring the bulk of new audiences to our projects).
2. Test a hypothesis around conversational AI knowledge seeking, to explore how people can discover and engage with content from Wikimedia projects Another strategic direction we're sure we want to investigate is around conversational AI, a technology that looks like it will be transformative in the free knowledge ecosystem. Not all work using large language models and chatbots would fall in this KR; rather just that work that investigates conversational AI as a way to bring free knowledge to audiences that otherwise would not experience Wikimedia content.
  • Reuters reported that as of February 2023, 2 months after launching, ChatGPT had 100 million active users, indicating its large appeal and fast growth.
  • GPT-4 and other LLMs are now being used to power many new tools including search and content creation online. Many in our movement are interested in and concerned about how our work and projects can continue to thrive in a world of increasingly sophisticated AI tools.