如何訓練你的龍：機器學習入門 - PromptCloud

已發表: 2017-09-19

目錄顯示

機器學習系統的組件

構建模型

從衝突中學習

學習過程

ML在主要行業的應用

機器學習的訓練數據

一段時間以來，人工智能一直在進入我們使用的日常技術。如果您想知道亞馬遜的產品推薦如何與您特別相關，答案就是人工智能。人工智能係統就像魔術一樣工作，但要創建一個好的人工智能係統，你必須擁有相關的龐大數據集供你使用。機器學習算法應該得到數據，你給它的數據越多，它的工作就越好。讓我們一目了然地看一下機器學習的工作原理。

如何訓練機器學習算法

機器學習系統的組件

每個機器學習系統都包含三個主要組件：

模型：負責識別和預測的組件。

參數：用於形成決策的因素或信號。

學習者：通過從預測和結果的差異中獲取線索，對參數進行更改進而導致模型修改的系統。

讓我們舉一個真實的例子來更好地理解這個概念。假設您是一名老師，他試圖確定學生應該花多少時間學習才能在考試中獲得最高分。讓我們看看如何通過機器學習的幫助來解決這個問題。

構建模型

正如我們所討論的，這一切都始於模型。最初，構建 ML 系統的人必須先為其提供一個模型。在我們的例子中，老師可以假設學習五個小時應該給出最好的考試成績。

該模型將進一步依賴於提供的參數來進行計算和自我調整。在這裡，參數將是收到的測試分數和學習時間。像這樣的東西：

0 小時 = 50% 分數
1 小時 = 60% 分數
2 小時 = 70% 分數
3 小時 = 80% 分數
4 小時 = 90% 分數
5 小時 = 100% 分數

ML 系統將在數學方程式中表達上述內容，以形成預期結果的趨勢線。

從衝突中學習

現在我們有了初始模型，是時候輸入參數了。您必須向模型提供數據，這將是不同學生的“考試成績和學習時間”。正如預期的那樣，輸入分數不會與手動編程的模型完全匹配。實際結果會高於或低於預測的趨勢線。

這種衝突情況觸發了機器學習系統中的學習活動。

學習過程

輸入機器學習系統的數據就是我們所說的“訓練數據集”，機器學習系統中的學習器組件使用它來訓練和優化模型以使其更好。
在我們的例子中，學習者將比較輸入分數並檢查它們與初始模型的差距。然後，學習者使用複雜的數學來修改模型，使其更符合實際數據。該模型可能會更改為以下內容：

0 小時 = 45% 分數
1 小時 = 55% 分數
2 小時 = 65% 分數
3 小時 = 75% 分數
4 小時 = 85% 分數
5 小時 = 95% 分數
6 小時 = 100% 分數

預測已被更改，它表明需要 6 小時的學習才能在此測試中達到最高分。通過這種方式，學習者在獲得更多數據時不斷對模型進行小而相關的更改。隨著該過程重複一定次數，預測達到了相當好的置信度分數，這意味著 ML 系統已經成功。其預測的準確性在很大程度上受其接收的數據量的影響。這是一個簡單的示例，實際用例可能要復雜得多。您可以從我們最近關於十大機器學習框架的博客中了解有關機器學習技術方面的更多信息。

ML在主要行業的應用

機器學習可以應用於幾乎所有垂直行業，以帶來根本性的變化和增長。讓我們看一下主要領域的一些流行應用程序。

創建以客戶為中心的搜索：如果電子商務搜索引擎可以像人類一樣思考，那不是很好嗎？ 電子商務搜索的常見問題之一是用戶放棄電子商務門戶，因為該網站針對特定搜索返回的產品結果不相關。這個問題可以通過利用自然語言處理對搜索查詢的含義進行上下文化和縮小來解決，從而改善電子商務搜索體驗。

重新定位潛在客戶：重新定位是一種很好的方式，可以讓那些放棄購物車而沒有結賬或多次訪問某個產品頁面而不採取任何行動的客戶回來。 通過智能地識別電子商務購物者的意圖，您可以向他們發送他們根本無法拒絕的報價。這是一種無需太多努力就能提高轉化率的好方法。

識別卓越的目標潛在客戶：識別您的高潛力潛在客戶是產生更多收入的關鍵。 通過使用機器學習來分析客戶的購買模式，您可以輕鬆發現出色的潛在客戶並以更高的精度定位他們，從而提高您的潛在客戶生成率。

改進對客戶的推薦：推薦引擎用於記錄客戶的購買模式，以推薦他們接下來可能需要的產品。 一個簡單的例子是向剛購買新智能手機的人推荐一個手機殼。考慮到已經有關於客戶購買模式的歷史數據金礦，這些建議的相關性將非常高。

處理虛假評論：正面和負面的客戶評論都會影響電子商務購物者的購買決定。 眾所周知，品牌會通過傳播負面評論來打壓競爭對手。許多電子商務零售商已經開始使用人工智能來打擊虛假評論，強調經過驗證和有用的評論。

吸引人才：近年來，借助人工智能識別和吸引相關人才呈上升趨勢。 例如，Linkedin 使用機器學習通過匹配候選人的技能和資格來推薦工作。 Glassdoor、Seek 和Indeed等其他流行的求職網站也使用類似的機器學習算法來根據用戶之前的搜索、帖子、點擊和連接創建交互圖。您可以在此處了解有關工作匹配及其工作原理的更多信息。

人員流失檢測：了解員工以及他們決定離開或留在公司的原因是人力資源分析中的主要問題之一。 識別損耗風險需要高級模式識別和一系列變量，這些變量應該為相關公司定制。在機器學習的幫助下，看似遙遠的點可以在幾秒鐘內連接起來，從而騰出人力資源代表的時間來專注於最小化風險而不是識別風險。

申請人跟踪和評估：在收到大量申請人的公司中，跟踪和評估是一項繁重的工作，只能通過使用機器學習來最小化。 雖然對最優秀人才的追求正在上升，但許多人力資源代表已經開始使用基於算法的評估來使任務更快、更高效。

動態定價和票價預測：酒店價格和航班票價瞬息萬變，而且因服務提供商而異。 無法手動跟踪這些更改。因此，利用網絡抓取服務來監控定價變化，這些數據用於預測未來票價和微調定價策略。使用歷史定價數據，您可以創建能夠預測未來價格變化的機器學習算法。輸入參數可能包括季節性趨勢、特價、需求增長和活躍的競爭對手。

從 DataStock 下載旅行數據集

智能出行助手：在當今快節奏的世界中，便利為王，人工智能驅動的智能服務在許多行業中越來越受歡迎。 旅行預訂就是這樣一個領域，由算法驅動的自動化可以提供很大幫助。可以訓練智能機器人來聽取您的旅行計劃並為您進行預訂。人工智能驅動的虛擬助手甚至被集成到流行的 IM 應用程序中，例如 Facebook Messenger、Telegram、Skype 和 Slack。有了這個，用戶可以做很多事情，比如尋找最便宜的交易、預訂酒店和預訂航班。這樣的智能助手還可以為用戶提供關於熱門目的地、餐飲場所、旅遊景點等方面的有價值的建議。

機器學習的訓練數據

現在您對機器學習的概念更加清晰，是時候將其應用到您的業務中並獲得無數好處了。在人工智能的所有創新應用中，最常見的一件事就是訓練數據。您需要持續提供數據來訓練您的機器學習系統，因為它無論如何都是機器學習系統中最重要的組成部分。

訓練數據集應該是新鮮的、相關的和高質量的，這樣你的機器學習系統才會變得有用。在尋找訓練數據集時，您可以查看DataStock ，它可以讓您從電子商務、招聘、旅遊、醫療保健和分類等廣泛的行業下載全面、乾淨且隨時可用的數據集。