Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?
Международный научно-исследовательский журнал публикации ВАК
Научные направления
Поделиться:
Разделы: Информационные технологии
Размещена 28.01.2016. Последняя правка: 28.01.2016.

ПРОГНОЗИРОВАНИЕ КЛАССА КАЧЕСТВА ВИН В ЗАВИСИМОСТИ ОТ ИХ БИОФИЗИЧЕСКИХ ПОКАЗАТЕЛЕЙ

Пименова Елена Владимировна

студент

Самарский государственный технический университет

студент

Научный руководитель: Забержинский Борислав Эдуардович к.т.н, доцент кафедры ИТ СамГТУ


Аннотация:
Данная статья касается проблемы качества вин в зависимости от их биофизических показателей. В наше время большое количество видов вин с различными характеристиками и для их оценки требуется много времени, наша система позволит упростить оценку качества вин. Прогнозирование качества вин в зависимости от их биофизических показателей будет проводиться на основе данных белого вина, из 4898 значений.


Abstract:
This article concerns the problem of quality wines based on their biophysical parameters. Nowadays many kinds of wines with different characteristics and for their evaluation takes a long time, our system will simplify the evaluation of the quality of wine . Prediction quality wines according to their biophysical parameters will be carried out on the basis of white wine from the 4898 values .


Ключевые слова:
Data Mining, прогнозирование; дерево решений; класс; качество; вино.

Keywords:
Data Mining; forecasting; decision tree; class; quality; wine.


УДК 004.8

Рассмотрим набор наблюдений по ряду  белого вина с участием его химических свойств. Винодельческая промышленность показывает недавний всплеск роста и находится на подъеме. Цена вина зависит не только от  довольно абстрактной оценки дегустаторов, мнение среди которых может иметь высокую степень изменчивости.  Ключевым фактором в сертификации вина и оценки качества является физико-химические испытания. Доступен набор данных белого вина, который имеет 4898 сортов.[1]

Американский кулинарный и винный критик Робин Голдштейн провел следующий эксперимент: он организовал 17 дегустаций двойным слепым методом (марка и цена вина была не известна ни тому, кто подавал, ни тому, кто пробовал) в разных штатах. Пятьсот дегустаторов, среди которых были как любители, так и профессионалы, оценивали 523 различных вина по цене от 1,65 до 150 долларов. В результате участники должны были ответить на вопрос «Как вы в целом оцениваете это вино?».

Как выяснилось, дорогие вина не набрали большего числа баллов. Более того, дегустаторы нашли дорогие вина менее приятными, чем дешевые. Что касается профессионалов, то они не отдали явного предпочтения ни дешевым, ни дорогим винам.[2]

По этим данным можно сделать вывод, что мнение дегустаторов  зачастую не отвечают критериям экспертного качества, а вина, победившие на одном соревновании, практически никогда не получают наград на другом, поэтому анализ качества вина нужно проводить в зависимости от биофизических показателей. Критерием качества вина являются его химические свойства. Нужно знать,  как и при каких значениях меняется качество вин. В таблице 1 представлены интервалы распределения химических свойств вин.

Таблица 1. Качество вина 

 

3

4

5

6

7

8

9

Неподвижная кислотность

4,2:11,8

4,8:10,2

4,5:10,3

3,8:14,2

4,2:9,2

3,9:8,2

6,6:9,1

Летучие кислоты

0,17:064

0,11:1,1

0,1:0,905

0,08:0,965

0,08:0,76

0,12:0,66

0,24:0,36

Лимонная кислота

0,21:0,47

0:0,88

0:1

0:1,66

0,01:0,74

0,04:0,74

0,29:0,49

Остаточный сахар

0,7:16,2

0,7:17,25

0,6:23,5

0,7:65,8

0,9:19,25

0,8:14,8

1,6:10,6

Хлориды

0,02:0,24

0,01:0,29

0,009:0,346

0,015:0,255

0,012:1,135

0,014:0,121

0,018:0,035

Бесплатный диоскид серы

5:289

3:138,5

2:131

3:112

5:108

6:105

24:57

Общий диоксид серы

19:440

10:272

9:344

18:294

34:229

59:212,5

85:139

Плотность

0,99:1,00

0,98:1,04

0,98:1,002

0,987:1,0389

0,981:1,04

0,98:1,0006

0,989:0,997

pH

2,87:3,55

2,83:3,72

2,79:3,79

2,72:3,81

2,84:3,82

2,94:3,59

3,2:3,41

Сульфаты

0,28:0,74

0,25:0,87

0,27:0,88

0,23:1,06

0,22:1,08

0,25:0,95

0,36:0,61

Алкоголь

8:12,6

8,4:13,5

8:13,6

8,5:14

8,6:14,2

8,5:14

10,4:12,9

 

Из таблицы 1 стало известно, в каких пределах находятся химические свойства вин. Также выяснили, что чем меньше хлоридов, тем качественнее вино. Качество вина сильно зависит от диоксида серы, его показатель должен быть средним, а алкоголь должен принимать значения больше 10 для наилучшего качества вина. Все эти показатели сложно рассматривать отдельно, ведь общая сумма показателей влияет на качество вина.

Для решения данной задачи был выбран метод дерево решений. Дерево обоснованных методов. Предполагается, что порядковая переменная не является непрерывной переменной. Было отмечено, что низкое качество (4 и менее) и высокое (8 или выше) встречаются редко. Отсюда вина классифицируются на три категории в зависимости от сочетания 3, 4, 5; 6, 7, 8 и 9. На рисунке 1 показано дерево решений. 

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Исходя из того что интеллектуальный анализ данных может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время.

Импортируем текстовый файл с обучающей выборкой в программу Deductor Studio Academic. Метки столбцов меняем на соответствующие наименования атрибутов.  Устанавливаем все необходимые требования. После того как мы загрузили файл, для прогнозирования класса качества вин будем использовать метод «Дерево решений», химические свойства назначаем входным параметром, а качество выходным. Далее разбиваем данные на подмножество, где выбираем значения обучающей и тестовой выборки. Для обучающей выборки мы берем 4000 значений и тестируем их для 898 значений.

На рисунке 2 представлена Таблица сопряженности. Зеленым цветом показано то, сколько раз из «Итого» значений программа распознала правильно, а красным – неправильно. 

Была спрогнозирована модель качества вина в зависимости от его свойств. Данная задача была решена с использованием метода «дерево решений», реализована в программе  Deductor Studio Academic.  С помощью данного решения мы повысили точность результатов уже существующих решений.

В  статье был рассмотрен метод интеллектуального анализа Data Mining, а также возможность его применения для прогнозирования качества вин на основе их химических свойств. По итогам проведенной работы сделан вывод о том, что при больших объемах выборки достаточно удобно использовать методы интеллектуального анализа данных. В ходе работы были использованы 2 выборки: обучающая и тестовая. Обучающая выборка использовалась для обучения алгоритма Data Mining, а тестовая – для проверки найденных закономерностей. Данная задача была решена с использованием метода «дерево решений». При помощи этого метода мы спрогнозировали качество вина в зависимости от его химических свойств, построили дерево решений и рассмотрели таблицу сопряженности, где выявили небольшие ошибки.

Библиографический список:

1. Анализ данных качества вина [Электронный ресурс] URL: https://onlinecourses.science.psu.edu/stat857/node/223
2.Вино – Википедия [Электронный ресурс]//Свободная энциклопедия [Офиц.сайт].URL: https://ru.wikipedia.org/wiki




Рецензии:

28.01.2016, 15:10 Эрштейн Леонид Борисович
Рецензия: 1. Это пищевые технологии. 2. Это отрывок, напишите нормальное введение. 3. Напишите нормальное заключение и поместите статью в соответствующий раздели и пусть специалисты оценивают можно это публиковать или нет, к информационным технологиям эта тема отношения не имеет.

28.01.2016 17:17 Ответ на рецензию автора Пименова Елена Владимировна:
Спасибо. Но почему данная статья не имеет отношения к ИТ, если проблема была решена с помощью информационных технологий в программе Deductor Studio.

28.01.2016, 17:37 Эрштейн Леонид Борисович
Рецензия: Господа, сейчас все делается с помощью информационных технологий. Философ печатает текст с помощью редактора Ворд, что же мы это тоже должны отнести это к информационным технологиям. Предметом информационных технологий, является развитие самих технологий, как таковых. Можно их использование. Можно. Но тогда Вы должны были статью построить иначе. Называться она должна примерно как "Использование информационных технологий для прогнозирования качества вин". И далее Вы должны описать, какие технологии используются, сравнить их, показать достоинства, недостатки, возможности и только в качестве примера Вашу статью. И тогда это будет статья по информационным технологиям. Как я понимаю это совсем не цель вашей статьи. Иначе говоря, все зависит от цели. Если цель показать способы использования или развитие информационных технологий, тогда это они. Если же цель показать результаты каких-либо исследований в любой сфере, пусть даже и с использованием информационных технологий, то это уже относится к данной сфере.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх