Разлика между чували и случайни гори

През годините множеството класификаторни системи, наричани още ансамбълни системи, бяха популярна тема за изследване и се радваха на нарастващо внимание в общността на изчислителната интелигентност и машинното обучение. Той привлече интереса на учени от няколко области, включително машинно обучение, статистика, разпознаване на образци и откриване на знания в бази данни. С течение на времето методите на ансамбъла се доказаха като много ефективни и универсални в широк спектър от проблемни области и приложения в реалния свят. Първоначално разработени за намаляване на различията в автоматизираната система за вземане на решения, оттогава методите на ансамбъла се използват за решаване на различни проблеми с машинното обучение. Представяме преглед на двата най -изявени алгоритма на ансамбъла - Bagging и Random Forest - и след това обсъждаме разликите между тях.

В много случаи е показано, че пакетирането, което използва извадка от начална лента, класификационните тресове имат по -висока точност от едно дърво на класификация. Bagging е един от най-старите и прости алгоритми, базирани на ансамбъл, който може да се приложи към алгоритми, базирани на дърво, за да се подобри точността на прогнозите. Има още една подобрена версия на пакетирането, наречена алгоритъм Random Forest, която по същество представлява ансамбъл от дървета на решения, обучени с механизъм за пакетиране . Нека да видим как работи алгоритъмът на случайните гори и как се различава от пакетирането в ансамблови модели.

Опаковане

Bootstrap агрегацията, известна още като пакетиране, е един от най-ранните и най-прости алгоритми, базирани на ансамбъл, за да направят дърветата на решенията по-стабилни и да постигнат по-добра производителност. Концепцията зад пакетирането е да комбинира прогнозите на няколко базови учащи се, за да създаде по -точен резултат. Лео Брейман въведе алгоритъма за пакетиране през 1994 г. Той показа, че агрегацията при стартиране може да доведе до желани резултати при нестабилни алгоритми на обучение, където малки промени в данните за обучение могат да причинят големи вариации в прогнозите. Буутстрапът е извадка от набор от данни с подмяна и всяка извадка се генерира чрез извадка равномерно от обучителния набор с размер m, докато се получи нов набор с m екземпляри.

Случайна гора

Случайната гора е контролиран алгоритъм за машинно обучение, базиран на ансамбълно обучение и еволюция на оригиналния алгоритъм за пакетиране на Breiman. Това е голямо подобрение спрямо дърветата на решения в пакети, за да се създадат множество дървета на решенията и да се обобщят, за да се получи точен резултат. Breiman добави допълнителен случаен вариант в процедурата за пакетиране, създавайки по -голямо разнообразие сред получените модели. Случайните гори се различават от дърветата в чували, като принуждават дървото да използва само подмножество от наличните си предиктори, за да се раздели във фазата на растеж. Всички дървета на решения, които съставляват произволна гора, са различни, тъй като всяко дърво е изградено върху различно произволно подмножество от данни. Тъй като свежда до минимум свръхкомпонентите, той има тенденция да бъде по -точен от едно дърво на решения.

Разлика между чантата и случайната гора

Основи

-Както пакетирането, така и случайните гори са базирани на ансамбъл алгоритми, които имат за цел да намалят сложността на моделите, които превъзхождат данните за обучение. Bootstrap агрегацията, наричана още пакетиране, е един от най -старите и мощни ансамбъл методи за предотвратяване на пренареждането. Това е метатехника, която използва множество класификатори за подобряване на точността на прогнозиране. Събирането на чанти просто означава извличане на произволни проби от обучителната извадка за подмяна, за да се получи ансамбъл от различни модели. Случайната гора е контролиран алгоритъм за машинно обучение, базиран на ансамбълно обучение и еволюция на оригиналния алгоритъм за пакетиране на Breiman.

Концепция

- Концепцията за начална извадка (пакетиране) е да се обучи куп непрекъснати дървета за вземане на решения на различни случайни подмножества от данните за обучение, вземане на проби със замяна, за да се намали вариацията на дърветата на решенията. Идеята е да се комбинират прогнозите на няколко базови учащи се, за да се създаде по -точен резултат. При случайни гори в процедурата за пакетиране се добавя допълнително произволно изменение, за да се създаде по -голямо разнообразие сред получените модели. Идеята зад произволните гори е да се създадат множество дървета за вземане на решения и да се обобщят, за да се получи точен резултат.

Цел

- И дръвчетата с джобове, и произволните гори са най -често срещаните инструменти за учене на ансамбъл, използвани за решаване на различни проблеми с машинното обучение. Bootstrap семплирането е мета-алгоритъм, предназначен да подобри точността и стабилността на моделите за машинно обучение, използвайки ансамбълно обучение, и да намали сложността на моделите с пренастройка. Алгоритъмът за произволни гори е много здрав срещу пренастройване и е добър с небалансирани и липсващи данни. Също така е предпочитаният избор на алгоритъм за изграждане на прогнозни модели. Целта е да се намали вариацията чрез осредняване на множество дълбоки дървета на решения, обучени на различни извадки от данни.

Bagging vs Random Forest: Сравнителна диаграма

Резюме

Дърветата в торби и произволните гори са най -често срещаните инструменти за учене на ансамбъл, използвани за решаване на различни проблеми с машинното обучение. Bagging е един от най-старите и прости алгоритми, базирани на ансамбъл, който може да се приложи към алгоритми, базирани на дърво, за да се подобри точността на прогнозите. Случайните гори, от друга страна, са контролиран алгоритъм за машинно обучение и подобрена версия на модела за извадка от начална лента, използван както за регресионни, така и за класификационни проблеми. Идеята зад произволната гора е да се създадат множество дървета за вземане на решения и да се обобщят, за да се получи точен резултат. Случайната гора има тенденция да бъде по -точна от едно дърво на решения, тъй като свежда до минимум свръхкомпонентите.

Вижте повече за: ,