人機(jī)圍棋大戰(zhàn)首局:李世石投子認(rèn)輸!
今天下午谷歌人工智能AlphaGo與韓國棋手李世石的第一場比賽結(jié)束,AlphaGo獲得今日比賽的勝利。雙方在較量3個(gè)半小時(shí)后,李世石宣布認(rèn)輸。今日比賽結(jié)束后,雙方還將分別在3月10日(周四)、12日(周六)、13日(周日)、15日 (周二)的北京時(shí)間中午12點(diǎn)進(jìn)行剩余4場比賽。
本次比賽用時(shí)每方2小時(shí),1分鐘讀秒三次。比賽采用中國規(guī)則,黑貼3又3/4子(黑貼7目半)。采用中國規(guī)則是因Alpha GO以中國規(guī)則為基礎(chǔ)開發(fā)。
比賽采用5局3勝制,最終比賽獲勝方將獲得獎金100萬美元。如果AlphaGo獲勝,獎金將捐贈給聯(lián)合國兒童基金會(UNICEF),STEM教育,以及圍棋慈善機(jī)構(gòu)(Go Charity)。
AlphaGo開發(fā)者DeepMind公司在今年1月的學(xué)術(shù)雜志《Nature》刊登封面文章,展示了圍棋人工智能領(lǐng)域突破性進(jìn)展的詳細(xì)情況。
谷歌AlphaGo在第一次與世界頂尖圍棋手的較量中取得勝利,這是人工智能發(fā)展史上重要的里程碑,代表人工智能已經(jīng)能在諸如圍棋等高度復(fù)雜的項(xiàng)目中發(fā)揮出超過人類的作用。
AlphaGo與李世石對戰(zhàn)棋譜AlphaGo與李世石對戰(zhàn)棋譜
谷歌為何要做人工智能圍棋程序AlphaGo
谷歌并不只是想做一個(gè)棋類程序,而是想做一個(gè)通用的智能計(jì)算系統(tǒng)。如果解決了圍棋問題,谷歌希望能把這套人工智能算法用于災(zāi)害預(yù)測、風(fēng)險(xiǎn)控制、醫(yī)療健康和機(jī)器人等復(fù)雜領(lǐng)域。也就是說谷歌的目的還是為了更好的服務(wù)人類,沒有任何惡意。DeepMind(AlphaGo的研究公司)創(chuàng)始人哈薩比斯說:公眾對人工智能的警示掩蓋了人工智能帶來的幫助。距離人腦水平的人工智能仍然相當(dāng)遙遠(yuǎn),可能還需要幾十年。
在昨天的賽前發(fā)布會上,谷歌董事長施密特表示,輸贏都是人類的勝利。因?yàn)檎侨祟惖呐Σ抛屓斯ぶ悄苡辛爽F(xiàn)在的突破。
但并不是所有人都會對人工智能持樂觀態(tài)度。諸如特斯拉CEO馬斯克、理論物理學(xué)家霍金等科技界的名人就對此產(chǎn)生了擔(dān)憂。
圍棋復(fù)雜度超過宇宙原子總數(shù)
圍棋棋盤橫豎各有19條線,共有361個(gè)落子點(diǎn),雙方交替落子,這意味著圍棋總共可能有10^171(1后面有171個(gè)零)種可能性。這個(gè)數(shù)字到底有多大,你可能沒有感覺。我們可以告訴你,宇宙中的原子總數(shù)是10^80(1后面80個(gè)零),即使窮盡整個(gè)宇宙的物質(zhì)也不能存下圍棋的所有可能性。
19年前,IBM公司的“深藍(lán)”計(jì)算機(jī)戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫,引起了巨大轟動。但是因圍棋的復(fù)雜度,直到近期,人類才在圍棋人工智能項(xiàng)目上取得重大突破。
由于圍棋的可能性如此之多,根本就沒有什么套路可言。下贏圍棋的唯一的辦法就是讓電腦也學(xué)會“學(xué)習(xí)”,而不是死記硬背。為了在圍棋上戰(zhàn)勝人類,硅谷的兩家科技公司——Facebook和谷歌開始研究,希望有朝一日能讓計(jì)算機(jī)戰(zhàn)勝人類圍棋冠軍。
李世石與AlphaGo對弈李世石與AlphaGo對弈
李世石是李昌鎬之后,韓國最具代表性的棋手,他在2003年獲第16屆富士通杯冠軍后升為九段棋手。自2002年加冕富士通杯以來,十年時(shí)間里他共獲18個(gè)世界冠軍。李世石屬于典型的力戰(zhàn)型棋風(fēng),善于敏銳地抓住對手的弱處主動出擊,以強(qiáng)大的力量擊垮對手,他的攻擊可以用“穩(wěn),準(zhǔn),狠”來形容,經(jīng)常能在劣勢下完成逆轉(zhuǎn)。
AlphaGo去年10月?lián)魯W洲冠軍
谷歌曾于2014年以4億歐元收購人工智能公司DeepMind。由DeepMind研發(fā)的AlphaGo項(xiàng)目已有兩年歷史,AlphaGo曾在去年戰(zhàn)勝了歐洲圍棋冠軍樊麾(職業(yè)二段)。
去年10月5日-10月9日,谷歌AlphaGo在比賽中以5:0的比分完勝了歐洲冠軍。除了戰(zhàn)勝人類外,AlphaGo還與其他的圍棋程序?qū)?zhàn),獲得了500場勝利。
AlphaGo原理簡介
傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹 ,但這種方法對圍棋并不適用。此次谷歌推出的AlphaGo,將高級搜索樹與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。這些神經(jīng)網(wǎng)絡(luò)通過12個(gè)處理層傳遞對棋盤的描述,處理層則包含數(shù)百萬個(gè)類似于神經(jīng)的連接點(diǎn)。
其中一個(gè)神經(jīng)網(wǎng)絡(luò)“決策網(wǎng)絡(luò)”(policy network)負(fù)責(zé)選擇下一步走法,另一個(gè)神經(jīng)網(wǎng)絡(luò)“值網(wǎng)絡(luò)”(“value network)則預(yù)測比賽勝利方。谷歌方面用人類圍棋高手的三千萬步圍棋走法訓(xùn)練神經(jīng)網(wǎng)絡(luò),與此同時(shí),AlphaGo也自行研究新戰(zhàn)略,在它的神經(jīng)網(wǎng)絡(luò) 之間運(yùn)行了數(shù)千局圍棋,利用反復(fù)試驗(yàn)調(diào)整連接點(diǎn),這個(gè)流程也稱為鞏固學(xué)習(xí)(reinforcement learning)。通過廣泛使用Google云平臺,完成了大量研究工作。
AlphaGo在與人的對弈中用了“兩個(gè)大腦”來解決問題:“決策網(wǎng)絡(luò)”和“值網(wǎng)絡(luò)”。通俗來說就是,一個(gè)大腦用來決策當(dāng)前應(yīng)該如何落子,另一個(gè)大腦來預(yù)測比賽最終的勝利方。
值得一提的是,李世石也是第一次與機(jī)器對戰(zhàn),所以他無法像和人類對戰(zhàn)那樣,先研究對方的棋譜和下棋風(fēng)格。李世石所能做的就是和自己對弈。谷歌AlphaGo也是通過這種方式鍛煉自己,真正做到了“人工智能”。
關(guān)注我們
