Тем не менее все события можно разделить на два класса — детерминированные и случайные.
Умаров Сергей Закирджанович
Проф. кафедры военной фармации Военно-медицинской академии им. С.М. Кирова (Санкт-Петербург), д.фарм.н.
Детерминированные события характеризуются тем, что при определенном комплексе условий они или всегда наступают, или никогда не наступают. Например, комплексом условий, при которых осуществляется поставка товара, является наличие договорных отношений и факт оплаты за поставку. В противном случае поставка товара не наступает. Другой класс событий (случайных) характеризуется тем, что при определенном комплексе условий они могут, как наступить, так и не наступить, предсказать заранее, наступит событие или нет, невозможно. Например, крупная (средняя, мелкая) покупка посетителем аптеки — событие случайное, количество посетителей в конкретный день недели (месяц, квартал) — тоже заранее предсказать невозможно, проработает ли приобретенная аптекой оргтехника без поломок в течение гарантийного срока, заранее неизвестно. Это все случайные события, изучением которых занимается теория вероятностей. Однако деление происходящих событий на детерминированные и случайные достаточно условно, т.к. точных, детерминированных количественных законов в окружающем мире почти не существует. Например, закон о зависимости давления газа от его температуры есть в действительности результат вероятностного характера числа соударений частиц о стенки сосуда и их скоростей. Но при обычных условиях случайные отклонения, которые тут имеют место, с большой вероятностью так малы, что зарегистрировать их приборами, имеющимися в нашем распоряжении, просто невозможно.
Однако с точки зрения фармацевтической бизнес-аналитики интерес представляют не сами по себе случайные события, а закономерности, возникающие при их многократном повторении, и те результаты, которые могут быть охарактеризованы соответствующими показателями (данными). Иначе говоря, практический интерес представляют только такие события, условия для появления которых могут возникать бесконечное число раз, и вместе с тем эти массовые случайные события должны обладать свойством так называемой статистической устойчивости. В качестве примера могут служить многократно повторяющиеся транзакции (продажи) популярного противовирусного препарата в условиях эпидемии гриппа.
Не менее важным объектом пристального внимания фармацевтической бизнес–аналитики является случайная величина. Дело в том, что зачастую результатом того или иного процесса оказывается не событие, а величина, число. Наблюдая и фиксируя такие многократно повторяющиеся величины, можно получить достаточно точное описание того или иного процесса. Примерами случайной величины могут быть величина чека, количество упаковок в одной покупке, объем заказа оптовой фирме и др. Все эти значения заранее предсказать невозможно, и в одних и тех же условиях они будут различными, т.е. они будут величинами случайными. Таким образом, под случайной величиной будем понимать такую величину, которая в результате стандартного процесса принимает неизвестное заранее значение, причем от процесса к процессу это значение может изменяться. Тогда с практической точки зрения возникает естественный вопрос: "Каким образом можно измерить случайную величину, которая постоянно меняется?" В идеальном варианте для получения ответа на такой вопрос следовало бы зафиксировать ВСЕ интересующие значения той или иной случайной величины (все чеки, все цены на товары и пр.). Однако реализовать такой подход на практике не представляется возможным, но тем не менее выход есть.
Для этого используется выборочный метод, при котором обследованию подвергаются не все случайные величины, составляющие так называемую генеральную совокупность, а только их часть, случайно выбранную из всего множества. При этом выводы, полученные при изучении этой части, распределяются на всю совокупность случайных величин. Выбранные случайным образом величины из генеральной совокупности образуют выборочную совокупность или просто выборку. Количество случайных величин, составляющих тот или иной вид совокупности, называется объемом выборки и обозначается буквами N — для генеральной совокупности и n — для выборки. Например, если за неделю общее число чеков составило 60 000, а для анализа отобрано 2500, то объем генеральной совокупности N = 60 000, а объем выборки n = 2500. Одним из важнейших свойств выборки является ее репрезентативность (представительность). Репрезентативной называется выборка, по которой можно судить о параметрах случайной величины всей генеральной совокупности.
К условиям репрезентативности выборки относят:
- части выборки должны быть пропорциональны частям генеральной совокупности;
- выборка должна наглядно демонстрировать все особенности изучаемого признака;
- выборка должна быть достаточно объемной;
- элементы выборки должны быть выбраны случайно.
Для определения объема выборки применяют вероятностные (случайные) и детерминированные (неслучайные) методы. Выборка называется вероятностной, если все единицы совокупности имеют определенный шанс (вероятность) быть включенным в выборку. Вероятностные методы формирования выборки включают в свой состав простой случайный отбор, систематический отбор, кластерный отбор и стратифицированный отбор.
Детерминированные методы формирования выборки включают: отбор на основе принципа удобства, отбор на основе суждений, формирование выборки в процессе обследования и формирование выборки на основе квот.
С практической точки зрения интерес представляют следующие подходы:
- произвольный подход, основанный на применении "правила большого пальца" (например, бездоказательно устанавливается размер выборки в 5% от совокупности);
- определение объема выборки на основе неких заранее оговоренных условий (например, руководитель считает, что для определения ценовых параметров достаточно включить в выборку цены 1000–1200 препаратов и настоятельно рекомендует придерживаться данной цифры);
- определение объема выборки исходя из бюджета аналитического исследования;
- определение объема выборки на основе статистического анализа (определяется минимальный объем выборки исходя из определенных требований к надежности и достоверности получаемых результатов).
Наиболее теоретически обоснованный подход к определению объема выборки основан на расчете доверительных интервалов. Однако использование двух последних подходов на практике возможно после внимательного изучения способов представления выборки, а также понимания, для чего служат характеристики случайной величины. На первом этапе выборка, содержащая результаты выборочных обследований, в большинстве случаев представляет собой неупорядоченную, достаточно большую группу числовых данных. Для выявления закономерностей такие данные должны быть систематизированы. Наиболее простым видом систематизации данных является вариационный ряд, представляющий собой выборку случайных величин, ранжированную в порядке их возрастания.
Для вариационного ряда приняты следующие обозначения: xi — случайная величина и ni — частота (встречаемость) той или иной случайной величины (рис. 1).
Модификацией вариационного ряда является дискретный ряд — это совокупность различных случайных величин xi и соответствующих им частот ni. Сумма всех частот равна объему выборки (n). Дискретный ряд записывается в виде таблицы (табл. 1).
Дискретный ряд представляет собой компактную и более информационно насыщенную форму вариационного ряда, что обеспечивается за счет реализации условия
Информационная составляющая дискретного ряда может быть повышена путем введения таких показателей, как «относительная частота или частость», «накопленная частота» и «накопленная частость». Относительная частота (частость, обозначается wi ), ее можно рассматривать как отношение
к общему n. Другими словами
Накопленная частота дает представление о том, сколько раз наблюдались случайные величины менее i плюс ее собственная частота. Аналогичным способом определяется и накопленная частость. Более наглядно порядок расчета представлен в табл. 2.
Более наглядно представить количественные характеристики дискретного ряда позволяют графические методы. Так, для графического представления частоты используется гистограмма или ее аналог — полигон частот. Для построения гистограммы на оси абсцисс откладывают размеры чеков и в соответствующей области строят прямоугольник (столбец) высотой, равной частоте данного чека (рис. 2).
Рис. 2 Гистограмма частот аптечных чеков
Построение полигона частот проводится аналогично. Только вместо столбцов ставят точки, которые затем соединяют отрезками прямой (рис. 3).
Рис. 3 Полигон частот аптечных чеков
Для графического представления накопленной частоты используется кумулятивная кривая, которую строят, откладывая на оси абсцисс размер чека в руб., а на оси ординат значения накопленной частоты (рис. 4).
Рис. 4 Кумулятивная кривая астот аптечных чеков
Основной целью анализа вариационных рядов является выявление закономерности распределения показателей того или иного бизнес-процесса (размер чека безрецептурного отпуска), исключая при этом влияние случайных для данного распределения факторов. Естественно, что 10 условных чеков, которые были взяты в качестве примера, вряд ли позволят выявить какие-либо закономерности. Этого можно достичь, если увеличивать объем исследуемой совокупности. Для иллюстрации этого положения мы использовали исходные данные, представленные на сайте компании «Юнико», которые затем были обработаны по вышеописанным методикам. В результате графического представления накопленной частоты была получена достаточно плавная кривая линия, на которой достаточно четко прослеживается закономерность, суть которой заключается в том, что 90% составляют чеки от 100 до 400 руб., а начиная с 900 руб. и выше размер чека достигает своего предела. Такую линию называют кривой распределения (рис. 5).
Рис. 5 Кривая распределения размера аптечных чеков*
---------------------
* — исходные данные взяты на сайте "Юник" — http://www.uniko.ru/about2/publish/index8.php?pub=1179
Таким образом, анализ вариационного ряда распределения аптечных чеков наглядно показал, что существует определенная связь между изменениями значения варьирующего признака (размер чека) и частотами: частоты с ростом значения признака сначала увеличиваются, а затем после достижения какой-то максимальной величины уменьшаются. Значит, частоты в рядах изменяются закономерно в связи с изменением варьирующего признака. Такого рода закономерные изменения частот в вариационных рядах называются закономерностями распределения.