准备去看赫罗纳西班牙人

說說故事

童話故事|兒童故事|謎語睡前故事|胎教故事|對聯

資料學習

作文|范文|醫學|留學|教程幼兒|考研|詩詞|板報|名言

高考中考

高中|小學初中|大學

學科中心

語文|簡譜|化學|政治|歷史數學|生物|物理|地理|美術

考試學校

英語|題庫|星座學校|高考|中考

機器學習入門(十):邏輯回歸——用來做分類的回歸模型

目錄

機器學習入門(十):邏輯回歸——用來做分類的回歸模型

現在我們回到 LR 模型本身。

回歸模型做分類

從前面關于分類與回歸的定義來看,分類模型和回歸模型似乎是涇渭分明的。輸出離散結果的就是用來做分類的,而輸出連續結果的,就用來做回歸。

我們前面講的兩個模型:線性回歸的預測結果是一個連續值域上的任意值,而樸素貝葉斯分類模型的預測結果則是一個離散值。

但 LR 卻是用來做分類的。它的模型函數為:

hθ(x)=11+e?θTx

設 z=θTx,則

h(z)=11+e?z

在二維坐標中形成 S 形曲線:

enter image description here

上圖中,z 是自變量(橫軸),最終計算出的因變量 y(縱軸),則是一個 [0,1] 區間之內的實數值。

一般而言,當 y>0.5 時,z 被歸類為真(True)或陽性(Positive),否則當 y<=0.5 時,z 被歸類為假(False)或陰性(Negative)。

所以,在模型輸出預測結果時,不必輸出 y 的具體取值,而是根據上述判別標準,輸出1(真)或0(假)。

因此,LR 典型的應用是二分類問題上,也就是說,把所有的數據只分為兩個類。

注意: 當然,這并不是說 LR 不能處理多分類問題,它當然可以處理,具體方法稍后講。我們先來看 LR 本身。

看到此處,大家是不是會有點擔心,如果大量的輸入得到的結果都在 y=0.5 附近,那豈不是很容易分錯?

說得極端一點,如果所有的輸入數據得出的結果都在 y=0.5 附近,那豈不是沒有什么分類意義了,和隨機亂歸類結果差不多?

這樣的擔心其實是不必要的。此模型函數在 y=0.5 附近非常敏感,自變量取值稍有不同,因變量取值就會有很大差異,所以不用擔心出現大量因細微特征差異而被歸錯類的情況——這也正是邏輯回歸的“神奇”之處。

邏輯回歸的目標函數

有了模型函數,來看看邏輯回歸的目標函數。

邏輯函數 h(x) 是我們要通過訓練得出來的最終結果。在最開始的時候,我們不知道其中的參數 θ 的取值,我們所有的只是若干的 x 和與其對應的 y(訓練集合)。訓練 LR 的過程,就是求 θ 的過程。

首先要設定一個目標:我們希望這個最終得出的 θ 達到一個什么樣的效果——我們當然是希望得出來的這個 θ,能夠讓訓練數據中被歸為陽性的數據預測結果都為陽,本來被分為陰性的預測結果都為陰。

而從公式本身的角度來看,h(x) 實際上是 x 為陽性的分布概率,所以,才會在 h(x)>0.5 時將 x歸于陽性。也就是說 h(x)=P(y=1)。反之,樣例是陰性的概率 P(y=0)=1?h(x)。

當我們把測試數據帶入其中的時候,P(y=1) 和 P(y=0) 就都有了先決條件,它們為訓練數據的 x 所限定。因此:

P(y=1|x)=h(x);P(y=0|x)=1?h(x)。

根據二項分布公式,可得出 P(y|x)=h(x)y(1?h(x))(1?y)。

假設我們的訓練集一共有 m 個數據,那么這 m 個數據的聯合概率就是:

L(θ)=∏mi=1P(y(i)|x(i);θ)=∏mi=1(hθ(x(i)))y(i)(1?hθ(x(i)))(1?y(i))

我們求取 θ 的結果,就是讓這個 L(θ) 達到最大。

還記得我們之前在樸素貝葉斯分類器中講到的極大似然估計嗎?其實此處 LR 目標函數的構建過程也是依據極大似然估計。

L(θ) 就是 LR 的似然函數。我們要讓它達到最大,也就是對其進行“極大估計”。因此,求解 LR 目標函數的過程,就是對 LR 模型函數進行極大似然估計的過程。

為了好計算,我們對它求對數。得到對數似然函數:

l(θ)=log(L(θ))=∑mi=1[y(i)log(hθ(x(i)))+(1?y(i))log(1?hθ(x(i)))]

我們要求出讓 l(θ) 能夠得到最大值的 θ。

l(θ) 其實可以作為 LR 的目標函數。前面講過,我們需要目標函數是一個凸函數,具備最小值。因此我們設定:J(θ)=?l(θ)。

J(θ)=?log(L(θ))=?∑mi=1[y(i)log(hθ(x(i)))+(1?y(i))log(1?hθ(x(i)))]

這樣,求 l(θ) 的最大值就成了求 J(θ) 的最小值。J(θ) 又叫做負對數似然函數。它就是 LR 的目標函數。

優化算法

我們已經得到了 LR 的目標函數 J(θ),并且優化目標是最小化它。

如何求解 θ 呢?具體方法其實有很多。此處我們仍然運用之前已經學習過的,最常見最基礎的梯度下降算法。

基本步驟如下:

? 通過對 J(θ) 求導獲得下降方向—— J′(θ);

? 根據預設的步長 α,更新參數 θ:=θ?αJ′(θ);

? 重復以上兩步直到逼近最優值,滿足終止條件。

enter image description here

既然知道了方法,我們就來計算一下。

已知:

J(θ)=?log(L(θ))=?∑mi=1[y(i)log(hθ(x(i)))+(1?y(i))log(1?hθ(x(i)))]

J(θ) 對 θ 求導:

?J(θ)?θ=?∑mi=1[y(i)h′θ(x(i))hθ(x(i))?(1?y(i))h′θ(x(i))(1?hθ(x(i)))]=∑mi=1[(?y(i))h′θ(x(i))hθ(x(i))+(1?y(i))h′θ(x(i))(1?hθ(x(i)))]

因為有:

h′(z)=d(11+e?z)dz=?(?e?z(1+e?z)2)=e?z1+e?z11+e?z=(1?11+e?z)(11+e?z)=h(z)(1?h(z))

同時,運用鏈式法則,有:

?hθ(x)?θ=?hθ(x)?(θx)x=hθ(x)(1?hθ(x))x

將上式帶入上面的 J(θ) 求導式子里,有:

?J(θ)?θ=∑mi=1[(?y(i))hθ(x(i))(1?hθ(x(i)))x(i)hθ(x(i))+(1?y(i))hθ(x(i))(1?hθ(x(i)))x(i)(1?hθ(x(i)))]=∑mi=1[?y(i)+y(i)hθ(x(i))+hθ(x(i))?y(i)hθ(x(i))]x(i)=∑mi=1[hθ(x(i))?y(i)]x(i)

當 x 為多維的時候(設 x 有 n 維),則在對 z=θx 求導的時候,要對 x 的每一個維度求導。

又因為 θ 和 x 維度相同,所以當 x 有 n 維的時候,θ 同樣是有 n 維的。則 J(θ) 的求導也變成了對 θ 的每一個維度求導:

?J(θ)?θj=∑mi=1[hθ(x(i))?y(i)]x(i)j;j=1,2,...,n

因此,優化算法偽代碼為:

Set initial value: θ0,α

while (not convergence)

{

θj:=θj+α∑mi=1(y(i)?hθ(x(i)))x(i)j

}

實例及代碼實現

我們來看一個例子,比如某位老師想用學生上學期考試的成績(Last Score)和本學期在學習上花費的時間(Hours Spent)來預期本學期的成績:

enter image description here

面對這樣一個需求,我們可能首先想到的是線性回歸,畢竟,要做的是預測本次的成績。那樣的話,我們取 X = [“Last Score”, “Hours Spent”],y = “Score”。

用線性回歸實現代碼如下:

我們把前11個樣本作為訓練集,最后3個樣本作為測試集。

這樣訓練出來之后,得到的預測結果為:[55.33375602 54.29040467 90.76185124],也就說 id 為 12、13、14 的三個同學的預測分數為55、54和91。

第一個差別比較大,id 為12的同學,明明考及格了,卻被預測為不及格。

這是為什么呢?大家注意 id 為4的同學,這是一位學霸,他只用了20小時在學習上,卻考出了第一名的好成績。

回想一下線性回歸的目標函數,我們不難發現,所有訓練樣本對于目標的貢獻是平均的,因此,4號同學這種超常學霸的出現,在數據量本身就小的情況下,有可能影響整個模型。

這還是幸虧我們有歷史記錄,知道上次考試的成績,如果 X 只包含“Hours Spent”,學霸同學根本就會帶偏大多數的預測結果(自變量只有“Hours Spent”的線性回歸模型會是什么樣的?這個問題留給同學們自己去實踐)。

那么我們看看用邏輯回歸如何。用邏輯回歸的時候,我們就不再是預測具體分數,而是預測這個學生本次能否及格了。

這樣我們就需要對數據先做一下轉換,把具體分數轉變成是否合格,合格標志為1,不合格為0,然后再進行邏輯回歸:

這次的輸出就是[1 0 1],對12、13、14號同學能否通過本次考試的判斷是正確的。

LR 處理多分類問題

LR 是用來做二分類的,但是如果我們面對的是多分類問題:樣本標簽的枚舉值多于2個,還能用 LR 嗎?

當然是可以的。我們可以把二分類問題分成多次來做。

假設你一共有 n 個標簽(類別),也就是說可能的分類一共有 n 個。那么就構造 n 個 LR 分類模型,第一個模型用來區分 label_1non-label _1(即所有不屬于 label_1 的都歸屬到一類),第二個模型用來區分 label_2non-label _2……, 第 n 個模型用來區分 label_nnon-label _n

使用的時候,每一個輸入數據都被這 n 個模型同時預測。最后哪個模型得出了 Positive 結果,就是該數據最終的結果。

如果有多個模型都得出了 Positive,那也沒有關系。因為 LR 是一個回歸模型,它直接預測的輸出不僅是一個標簽,還包括該標簽正確的概率。那么對比幾個 Positive 結果的概率,選最高的一個就是了。

例如,有一個數據,第一和第二個模型都給出了 Positive 結果,不過 label_1 模型的預測值是0.95,而 label_2 的結果是0.78,那么當然是選高的,結果就是 label_1

說起原理來好像挺麻煩,好在 sklearn 已經為我們處理了多分類問題,我們用 sklearn 來做多分類的時候,只是需要把 y 準備好,其他的,都和做二分類一樣就可以了。

比如還是上面的例子,現在我們需要區分:學生的本次成績是優秀(>=85),及格,還是不及格。我們就在處理 y 的時候給它設置三個值:0 (不及格)、1(及格)和2(優秀),然后再做 LR 分類就可以了。代碼如下:

測試集的輸出是:[1 0 2] —— 12號及格,13號不及格,14號優秀,還是蠻準的。

附錄

quiz.csv 文件:

Id,Last Score,Hours Spent,Score

1,90,117,89

2,85,109,78

3,75,113,82

4,98,20,95

5,62,116,61

6,36,34,32

7,87,120,88

8,89,132,92

9,60,83,52

10,72,92,65

11,73,112,71

12,56,143,62

13,57,97,52

14,91,119,93

機器學習入門(十):邏輯回歸——用來做分類的回歸模型最新查閱>>
機器學習入門(十):邏輯回歸——用來做分類的回歸模型相關:
發布時間:2019-06-05機器學習入門(十):邏輯回歸——用來做分類的回歸模型

現在我們回到 LR 模型本身。回歸模型做分類從前面關于分類與回歸的定義來看,分類模型和回歸模型似乎是涇渭分明的。輸出離散結果的就是用來做分類的,而輸出連續結果的,就用來做回歸。我們前面講的兩個模型:線性回歸的預測結果是一個連續值域上的任意值,而樸素貝葉斯分類模型的預測結果則是一個離散值。但 LR 卻是用來做分類的。它的模型函數為:hθ(x)=11+e?θT..

發布時間:2019-06-05機器學習入門(十一):決策樹——既能分類又能回歸的模型

決策樹前面我們講了線性回歸和樸素貝葉斯分類模型。前者只能做回歸,后者只能做分類。但本文中要講的決策樹模型,卻既可以用于分類,又可以用于回歸。什么是決策樹決策樹是一種非常基礎又常見的機器學習模型。一棵決策樹(Decision Tree)是一個樹結構(可以是二叉樹或非二叉樹),每個非葉節點對應一個特征,該節點的每個分支代表這個特征的一個取值,而每個葉節點存放一..

發布時間:2019-06-05我國收費站的錢都用來干嘛了?為何仍有49867.4億元債款?

導讀:我國收費站的錢都用來干嘛了?為何仍有49867.4億元債款?眾所周知,隨著我國大力推動國內的經濟發展,國家正在逐步完善國內的各種交通建設,各種各樣的高速公路出不窮,密集的分布在我國的各個省市要道,國家的整體發展富強提供了巨大的助力,不過一直以來有很多人都非常疑惑,為什么國家修建的高速公路,會社有這么多的收費站呢?收費站所收得的錢又到底干嘛用了呢?截止..

發布時間:2019-06-05四款中國品牌MPV橫評——動態駕駛感受以及底盤用料詳解

四款車型底盤均采用前麥弗遜式、后扭轉梁式懸架組合,單看名字結構似乎相同,但當我們升起底盤看內容時,卻發現了太多的區別。● 底盤總覽從底盤的整體對比上咱能看到,四款車的副車架、前懸架布局、后懸架組成等都有區別,除此之外底盤防護、輪拱護板、油箱材質也都不一樣,下面我們就從前懸架的結構開始為您對比介紹。四款車的前懸架都是麥弗遜式獨立懸架,麥弗遜懸架是什么?它的優..

發布時間:2019-06-05有關秋天的詩詞(十首)

  別過夏花絢爛,走進秋葉靜美,秋天沒有了夏天的熱烈燦爛,更多的是沉靜和內斂。 以下是小編整理的有關秋天的古詩詞,希望你喜歡!  1、《秋夕》  唐杜牧  銀燭秋光冷畫屏,輕羅小扇撲流螢。  天階夜色涼如水,坐看牽牛織女星。  2、《望洞庭》  唐劉禹錫  湖光秋月兩相和,潭面無風鏡未磨。  遙望洞庭山水翠,白銀盤里一青螺。  3、《夜將曉出籬門迎涼有感》..

發布時間:2019-06-05杭州屬于高收入高租金城市,北上深月收入幾乎都用來付房租!

6月3日星期一19~31℃?多云音樂資源加載中...全國50城租房壓力榜北上深月收入幾乎用來付房租大都市租房難租金高,最直接原因是租金和收入的比例過高。諸葛找房數據研究中心近日發布報告顯示,在一線城市若想一個人整租一居室,房租占收入六成以上,北、上、深更是高達九成以上。即使是退而選擇合租,在一線城市的租房成本也達到收入30%以上。房租收入比反映在一個城市的..

發布時間:2019-06-05衡陽特有的味道——土頭碗

每個地方都有特有的味道, 土特產,美食,往往是一個地方特有的標簽,而作為一個地道的衡陽人,土頭碗我相信大家都耳熟能詳,它作為宴席地道菜,地道的制作方式,加上特有的手工制作,無不讓人垂涎欲滴!下面我們就來看看這土頭碗到底有何特別之處!說起衡陽頭碗,我不得不提到一個衡陽歷史上的重要人物。他,就是湘軍名將彭玉麟。衡陽頭碗的聞名,乃至成為湘菜經典,都和彭玉麟有著莫..

發布時間:2019-06-05任語?|?內外合規多打糧,保駕護航贏未來——任正非在監管體系座談會上的講話(?2016?年?12?月?1?日)

【導讀】在任正非看來,公司不因為腐敗而不發展,也不因為發展而寬容腐敗。“公司發展得越快,管理覆蓋就越不足,暫時的漏洞也會越多。”因此,華為設置了內部控制的三層防線:業務主管/流程 owner、內控及風險監管的行業部門、內部審計部。▲任正非接受央視《面對面》采訪任總講話紀要坦誠睿智? 高瞻遠矚? 襟懷寬廣華為公司建立起這支監管隊伍不容易。一個組織要有鐵的紀律..

發布時間:2019-06-05“傻瓜”心理模型:讓每個人都能時刻頭腦清晰

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。編者按:世界是如此復雜,而我們對問題的思考都比較單一片面,有些最常見而又不可或缺的東西,恰恰最容易被我們忽視。心理模型能改善思維方式,幫助我們簡化復雜事物,更好地理解生活,因此學會“心理模型”很重要。運用文章中給出的幾個入門方法,可以讓我們更好的掌握心理模型..

發布時間:2019-06-05等了一年,肯德基端午桶終于回歸!隔著屏幕都能聞到香味!

整個端午吉祥桶包括:2個咸蛋黃鮮肉粽 | 3杯中杯可樂 | 1個香辣雞腿堡 | 1個新奧爾良烤雞腿堡 | 2塊絕色雙椒熱辣脆皮雞 | 2塊新奧爾良烤翅 | 4塊香辣雞翅 | 1只葡式蛋撻講真的,論入鄉隨俗小資只服肯德基!粽子外部用紅線綁著,不像外面市面上買的一些粽子糯米和粽葉“難舍難分”,肯德基的粽子非常好剝。精選清亮箬葉,湊近聞了聞還有粽葉特有的淡淡香氣..

發布時間:2019-06-05我為什么說當今命理屆的名人大師一個入門的都沒有

因為這些名人大師沒有一個講怎么斷兄弟姐妹排行的,而兄弟姐妹排行又是八字算命的入門標志(沒有之一),所以我敢說所有當今命理屆開班收徒的名人大師沒有一個是入門的。如果誰不服氣可以跟我來比,看看誰算兄弟排行算得準,這個可以驗證,一試便知真假,本人今天廣發英雄帖邀請全世界命理高手跟我比試,正本清源、以正視聽。[標簽:介紹2]ding

發布時間:2019-06-05“青年大學習”網上主題團課第五季第七期來啦!

共青團中央有態度 有溫度 全網青年都在關注?五四運動,開啟了近代以來中華民族從沉淪到復興的“V型反轉”。100年來,中國青年以舍我其誰的膽氣與志氣投身黨領導的革命、建設、改革偉大事業,迎難而上、勇敢擔當,譜寫了一曲又一曲壯麗的青春之歌。今天,新時代中國青年正處在中華民族發展的最好時期,既面臨難得的建功立業的人生際遇,也面臨“天將降大任于斯人”的時代使命,又..

發布時間:2019-06-05世界死亡之地系列——加州“死亡谷”

這里也是北美洲最熾熱、最干燥的地區。幾乎常年不下雨,更有過連續六個多星期氣溫超過四十攝氏度的紀錄。每逢傾盆大雨,熾熱的地方便會沖起滾滾泥流。這里還有“死火山口”、“干骨谷”和“葬禮山”等不祥的別稱。但越是奇特的景觀,越是驚險刺激,就越能吸引游人前來探訪。1933年美國總統胡佛將其命名為“死亡谷”,并設立為國家特級保護區,1994年美國將其正式辟為國家公園。..

發布時間:2019-06-05老子《道德經》第三十一章 學習筆記

第三十一章    夫佳兵者,不祥之器,物或惡之,故有道者不處。君子居則貴左,用兵則貴右。兵者,不祥之器,非君子之器,不得已而用之,恬淡為上。勝而不美,而美之者,是樂殺人。夫樂殺人者,則不可以得志于天下矣。吉事尚左,兇事尚右。偏將軍居左,上將軍居右,言以喪禮處之。殺人之眾,以悲哀泣之。戰勝,以喪禮處之。    對原文的理解:  再上好的兵器,也是不祥之物,是..

發布時間:2019-06-05歷史的回旋踢之泉州與福州的歷史四季輪回!

第一季(春)  背景  福建最早的閩越文化也就是福建的土著文化(融合了越國移民的閩蠻主流)在春秋戰國至漢武帝時期。當時福州和南平地區是福建土著文化的代表地區。  漢武帝時期,閩越國起兵反漢,發生對抗戰爭,最終閩越國戰敗,為了徹底消除后患,漢武帝詔令大軍將閩越舉國遷往江淮內地,焚毀閩越國的城池宮殿,閩越國徹底滅亡,隨著閩越民往江淮遷移,福建的閩越族群(閩越文..

發布時間:2019-06-05致生活——上班時的糗事趣事

人生的每個階段,都有每個階段的使命。下鄉,是為了響應祖國號召;回城,也是為了響應祖國號召。  你在每個階段能干成什么樣,除了天賦之外,還得努力!給自己編一個夢想,一步一步去實現,便會有很強的成就感![標簽:介紹2]兄弟篇還是姊妹篇上班族是一個很大的群體,要寫的趣事很多,希望寫到我的故事,期待更貼~一,權權交易  廠里的領導,讓我們這批年齡不小的新學徒,在家..

發布時間:2019-06-05月星堂奇門遁甲 奇門遁甲學習方法 奇門風水預測改運方法第十三集

[標簽:介紹2]

發布時間:2019-06-05【喜迎力場2.0——讓一切有價值的行為得到相應的回報】

【喜迎力場2.0——讓一切有價值的行為得到相應的回報】5月31日力場上線了2.0版本,2.0新增了個榮譽值。榮譽值是衡量用戶在力場生態中所做貢獻一個數值(即:榮譽值反映的是力場用戶對生態的貢獻度)。  在力場1.0里有精選、熱門、關注、排行榜還有其它公鏈圈子。有朋友會說我寫不了好文上精選,也沒有權重上熱門。這都沒關系,只要你在力場付出了有價值的行為,你就會..

發布時間:2019-06-05因果小故事——082 釣魚有什么果報?

[標簽:介紹2]

發布時間:2019-06-05淺談彩票。。假或不假,都只有一個結果——輸!

就目前市面可見的彩票而言,開獎結果作假與否其實對于整體購彩者群體而言,都是一樣的結局,輸。區別在于輸的速度與頻率。其實這種建立在簡單數學理論范疇上的游戲,發行者根本沒有公示其基本風險及真相。  真相是什么?赤裸裸的掠奪。  總是看見很多人沉迷于其中研究分析,樂此不疲,除了可笑就是可悲了。  曾經也是這些人其中之一,后來明白真相后才知道當初的行為有多傻。  ..

百度機器學習入門(十):邏輯回歸——用來做分類的回歸模型:

欄目推薦
熱點排行
推薦閱讀
准备去看赫罗纳西班牙人 新生彩测速网址 BBIN体育BBIN体育网 重庆时时开奖结果记录官 快乐竞速下载 伯爵注册娱乐 pk10选冠军号诀窍 捕鱼赢现金10元提现 pt电子是什么意思 2019十大时时彩平台 分分彩预测软件下载 福彩快三大小单双技巧教程 彩票大小单双有规律嘛