一个色的导航资源精品在线观看|手机看片在线精品视频|伊人亚洲成人电影|亚洲欧美在线男女|无码无码在线观看五月精品视频在线|超碰日韩欧美在线|午夜精品蜜桃一区二区久久久|91欧美动态国产精品女主播|色欲色香天天天综合网在线观看免费|伊人春色在线伊人

din算法面試題?

時間:2024-04-13 01:30 人氣:0 編輯:admin

一、din算法面試題?

主要是聊基礎(chǔ)算法知識和代碼題。

二、鵝廠面試題,英語單詞拼寫檢查算法?

又到安利Python的時間, 最終代碼不超過30行(優(yōu)化前),加上優(yōu)化也不過40行。

第一步. 構(gòu)造Trie(用dict登記結(jié)點信息和維持子結(jié)點集合):

-- 思路:對詞典中的每個單詞,逐詞逐字母拓展Trie,單詞完結(jié)處的結(jié)點用None標識。

def make_trie(words):
    trie = {}
    for word in words:
        t = trie
        for c in word:
            if c not in t: t[c] = {}
            t = t[c]
        t[None] = None
    return trie

第二步. 容錯查找(容錯數(shù)為tol):

-- 思路:實質(zhì)上是對Trie的深度優(yōu)先搜索,每一步加深時就消耗目標詞的一個字母。當搜索到達某個結(jié)點時,分為不消耗容錯數(shù)和消耗容錯數(shù)的情形,繼續(xù)搜索直到目標詞為空。搜索過程中,用path記錄搜索路徑,該路徑即為一個詞典中存在的詞,作為糾錯的參考。

-- 最終結(jié)果即為諸多搜索停止位置的結(jié)點路徑的并集。

def check_fuzzy(trie, word, path='', tol=1):
    if word == '':
        return {path} if None in trie else set()
    else:
        p0 = set()
        if word[0] in trie:
            p0 = check_fuzzy(trie[word[0]], word[1:], path+word[0], tol)
        p1 = set()
        if tol > 0:
            for k in trie:
                if k is not None and k != word[0]:
                    p1.update(check_fuzzy(trie[k], word[1:], path+k, tol-1))
        return p0 | p1

簡單測試代碼 ------

構(gòu)造Trie:

words = ['hello', 'hela', 'dome']
t = make_trie(words)

In [11]: t
Out[11]: 
{'d': {'o': {'m': {'e': {'$': {}}}}},
 'h': {'e': {'l': {'a': {'$': {}}, 'l': {'o': {'$': {}}}}}}}

容錯查找:

In [50]: check_fuzzy(t, 'hellu', tol=0)
Out[50]: {}

In [51]: check_fuzzy(t, 'hellu', tol=1)
Out[51]: {'hello'}

In [52]: check_fuzzy(t, 'healu', tol=1)
Out[52]: {}

In [53]: check_fuzzy(t, 'healu', tol=2)
Out[53]: {'hello'}

似乎靠譜~

---------------------------分--割--線--------------------------------------

以上是基于Trie的approach,另外的approach可以參看@黃振童鞋推薦Peter Norvig即P神的How to Write a Spelling Corrector

雖然我已有意無意模仿P神的代碼風格,但每次看到P神的源碼還是立馬跪...

話說word[1:]這種表達方式其實是有淵源的,相信有的童鞋對(cdr word)早已爛熟于心...(呵呵

------------------------分-----割-----線-----二--------------------------------------

回歸正題.....有童鞋說可不可以增加新的容錯條件,比如增刪字母,我大致對v2方法作了點拓展,得到下面的v3版本。

拓展的關(guān)鍵在于遞歸的終止,即每一次遞歸調(diào)用必須對參數(shù)進行有效縮減,要么是參數(shù)word,要么是參數(shù)tol~

def check_fuzzy(trie, word, path='', tol=1):
    if tol < 0:
        return set()
    elif word == '':
        results = set()
        if None in trie:
            results.add(path)
        # 增加詞尾字母
        for k in trie:
            if k is not None:
                results |= check_fuzzy(trie[k], '', path+k, tol-1)
        return results
    else:
        results = set()
        # 首字母匹配
        if word[0] in trie:
            results |= check_fuzzy(trie[word[0]], word[1:], path + word[0], tol)
        # 分情形繼續(xù)搜索(相當于保留待探索的回溯分支)
        for k in trie:
            if k is not None and k != word[0]:
                # 用可能正確的字母置換首字母
                results |= check_fuzzy(trie[k], word[1:], path+k, tol-1)
                # 插入可能正確的字母作為首字母
                results |= check_fuzzy(trie[k], word, path+k, tol-1)
        # 跳過余詞首字母
        results |= check_fuzzy(trie, word[1:], path, tol-1)
        # 交換原詞頭兩個字母
        if len(word) > 1:
            results |= check_fuzzy(trie, word[1]+word[0]+word[2:], path, tol-1)
        return results

好像還是沒有過30行……注釋不算(

本答案的算法只在追求極致簡潔的表達,概括問題的大致思路。至于實際應(yīng)用的話可能需要很多Adaption和Tuning,包括基于統(tǒng)計和學(xué)習得到一些詞語校正的bias。我猜測這些拓展都可以反映到Trie的結(jié)點構(gòu)造上面,比如在結(jié)點處附加一個概率值,通過這個概率值來影響搜索傾向;也可能反映到更多的搜索分支的控制參數(shù)上面,比如增加一些更有腦洞的搜索分支。(更細節(jié)的問題這里就不深入了逃

----------------------------------分-割-線-三----------------------------------------

童鞋們可能會關(guān)心時間和空間復(fù)雜度的問題,因為上述這種優(yōu)(cu)雅(bao)的寫法會導(dǎo)致產(chǎn)生的集合對象呈指數(shù)級增加,集合的合并操作時間也指數(shù)級增加,還使得gc不堪重負。而且,我們并不希望搜索算法一下就把所有結(jié)果枚舉出來(消耗的時間亦太昂貴),有可能我們只需要搜索結(jié)果的集合中前三個結(jié)果,如果不滿意再搜索三個,諸如此類...

那腫么辦呢?................是時候祭出yield小魔杖了? ??)ノ

下述版本姑且稱之為lazy,看上去和v3很像(其實它倆在語義上是幾乎等同的

def check_lazy(trie, word, path='', tol=1):
    if tol < 0:
        pass
    elif word == '':
        if None in trie:
            yield path
        # 增加詞尾字母
        for k in trie:
            if k is not None:
                yield from check_lazy(trie[k], '', path + k, tol - 1)
    else:
        if word[0] in trie:
            # 首字母匹配成功
            yield from check_lazy(trie[word[0]], word[1:], path+word[0], tol)
        # 分情形繼續(xù)搜索(相當于保留待探索的回溯分支)
        for k in trie:
            if k is not None and k != word[0]:
                # 用可能正確的字母置換首字母
                yield from check_lazy(trie[k], word[1:], path+k, tol-1)
                # 插入可能正確的字母作為首字母
                yield from check_lazy(trie[k], word, path+k, tol-1)
        # 跳過余詞首字母
        yield from check_lazy(trie, word[1:], path, tol-1)
        # 交換原詞頭兩個字母
        if len(word) > 1:
            yield from check_lazy(trie, word[1]+word[0]+word[2:], path, tol-1)

不借助任何容器對象,我們近乎聲明式地使用遞歸子序列拼接成了一個序列。

[新手注釋] yield是什么意思呢?就是程序暫停在這里了,返回給你一個結(jié)果,然后當你調(diào)用next的時候,它從暫停的位置繼續(xù)走,直到有下個結(jié)果然后再暫停。要理解yield,你得先理解yield... Nonono,你得先理解iter函數(shù)和next函數(shù),然后再深入理解for循環(huán),具體內(nèi)容童鞋們可以看官方文檔。而yield from x即相當于for y in x: yield y。

給剛認識yield的童鞋一個小科普,順便回憶一下組合數(shù)C(n,m)的定義即

C(n, m) = C(n-1, m-1) + C(n-1, m)

如果我們把C視為根據(jù)n和m確定的集合,加號視為并集,利用下面這個generator我們可以懶惰地逐步獲取所有組合元素:

def combinations(seq, m):
    if m > len(seq):
        raise ValueError('Cannot choose more than sequence has.')
    elif m == 0:
        yield ()
    elif m == len(seq):
        yield tuple(seq)
    else:
        for p in combinations(seq[1:], m-1):
            yield (seq[0],) + p
        yield from combinations(seq[1:], m)

for combi in combinations('abcde', 2): 
    print(combi)

可以看到,generator結(jié)構(gòu)精準地反映了集合運算的特征,而且蘊含了對元素進行映射的邏輯,可讀性非常強。

OK,代碼到此為止。利用next函數(shù),我們可以懶惰地獲取查找結(jié)果。

In [54]: words = ['hell', 'hello', 'hela', 'helmut', 'dome']

In [55]: t = make_trie(words)

In [57]: c = check_lazy(t, 'hell')

In [58]: next(c)
Out[58]: 'hell'

In [59]: next(c)
Out[59]: 'hello'

In [60]: next(c)
Out[60]: 'hela'

話說回來,lazy的一個問題在于我們不能提前預(yù)測并剔除重復(fù)的元素。你可以采用一個小利器decorator,修飾一個generator,保證結(jié)果不重復(fù)。

from functools import wraps

def uniq(func):
    @wraps(func)
    def _func(*a, **kw): 
        seen = set()
        it = func(*a, **kw)
        while 1: 
            x = next(it) 
            if x not in seen:
                yield x
                seen.add(x) 
    return _func

這個url打開的文件包含常用英語詞匯,可以用來測試代碼:

In [10]: import urllib

In [11]: f = urllib.request.urlopen("https://raw.githubusercontent.com/eneko/data-repository/master/data/words.txt")

# 去除換行符
In [12]: t = make_trie(line.decode().strip() for line in f.readlines())

In [13]: f.close()

----------------------分-割-線-四-----------------------------

最后的最后,Python中遞歸是很昂貴的,但是遞歸的優(yōu)勢在于描述問題。為了追求極致性能,我們可以把遞歸轉(zhuǎn)成迭代,把去除重復(fù)的邏輯直接代入進來,于是有了這個v4版本:

from collections import deque

def check_iter(trie, word, tol=1):
    seen = set()
    q = deque([(trie, word, '', tol)])
    while q:
        trie, word, path, tol = q.popleft()
        if word == '':
            if None in trie:
                if path not in seen:
                    seen.add(path)
                    yield path
            if tol > 0:
                for k in trie:
                    if k is not None:
                        q.appendleft((trie[k], '', path+k, tol-1))
        else:
            if word[0] in trie:
                q.appendleft((trie[word[0]], word[1:], path+word[0], tol))
            if tol > 0:
                for k in trie.keys():
                    if k is not None and k != word[0]:
                        q.append((trie[k], word[1:], path+k, tol-1))
                        q.append((trie[k], word, path+k, tol-1))
                q.append((trie, word[1:], path, tol-1))
                if len(word) > 1:
                    q.append((trie, word[1]+word[0]+word[2:], path, tol-1)) 

可以看到,轉(zhuǎn)為迭代方式后我們?nèi)匀豢梢宰畲蟪潭缺A暨f歸風格的程序形狀,但也提供了更強的靈活性(對于遞歸,相當于我們只能用棧來實現(xiàn)這個q)?;谶@種迭代程序的結(jié)構(gòu),如果你有詞頻數(shù)據(jù),可以用該數(shù)據(jù)維持一個最優(yōu)堆q,甚至可以是根據(jù)上下文自動調(diào)整詞頻的動態(tài)堆,維持高頻詞匯在堆頂,為詞語修正節(jié)省不少性能。這里就不深入了。

【可選的一步】我們在對單詞進行糾正的時候往往傾向于認為首字母是無誤的,利用這個現(xiàn)象可以減輕不少搜索壓力,花費的時間可以少數(shù)倍。

def check_head_fixed(trie, word, tol=1):
    for p in check_lazy(trie[word[0]], word[1:], tol=tol):
        yield word[0] + p

最終我們簡單地benchmark一下:

In [18]: list(check_head_fixed(trie, 'misella', tol=2))
Out[18]:
['micellar',
 'malella',
 'mesilla',
 'morella',
 'mysell',
 'micelle',
 'milla',
 'misally',
 'mistell',
 'miserly']

In [19]: %timeit list(check_head_fixed(trie, 'misella', tol=2))
1.52 ms ± 2.84 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

在Win10的i7上可以在兩毫秒左右返回所有結(jié)果,可以說令人滿意。

三、大數(shù)據(jù)算法面試題

在當今數(shù)字化時代,大數(shù)據(jù)已成為各行各業(yè)不可忽視的重要資產(chǎn)。對于數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師來說,掌握大數(shù)據(jù)算法是至關(guān)重要的技能之一。隨著數(shù)據(jù)量的不斷增長和復(fù)雜性的提升,大數(shù)據(jù)算法的應(yīng)用范圍也越來越廣泛。

大數(shù)據(jù)算法的重要性

大數(shù)據(jù)算法是指為處理大規(guī)模數(shù)據(jù)而設(shè)計的一組算法和技術(shù)。在處理海量數(shù)據(jù)時,傳統(tǒng)的算法可能無法有效地運行,因此需要專門針對大數(shù)據(jù)量級和特點設(shè)計的算法來進行處理。

大數(shù)據(jù)算法的重要性在于它可以幫助企業(yè)從海量數(shù)據(jù)中提取出有用的信息、模式和見解,為決策提供支持。通過運用大數(shù)據(jù)算法,企業(yè)可以更好地理解客戶需求、優(yōu)化產(chǎn)品設(shè)計、改進營銷策略,從而提升競爭力。

大數(shù)據(jù)算法面試題示例

下面列舉了一些常見的大數(shù)據(jù)算法面試題,希望能夠幫助準備面試的同學(xué)更好地理解和掌握相關(guān)知識:

  • 深度學(xué)習算法與傳統(tǒng)機器學(xué)習算法有何不同?
  • 請解釋什么是MapReduce,并說明其在大數(shù)據(jù)處理中的作用。
  • 如何處理大規(guī)模圖數(shù)據(jù)?請介紹一種適用于處理大規(guī)模圖數(shù)據(jù)的算法。
  • 什么是K均值聚類算法?如何選擇合適的簇數(shù)?
  • 請簡要介紹隨機森林算法及其在大數(shù)據(jù)分析中的應(yīng)用。

如何準備大數(shù)據(jù)算法面試

為了更好地準備大數(shù)據(jù)算法面試,以下是一些建議:

  1. 深入理解常見的大數(shù)據(jù)算法及其原理。包括但不限于深度學(xué)習、聚類、分類、回歸等算法。
  2. 熟練掌握數(shù)據(jù)結(jié)構(gòu)與算法。大數(shù)據(jù)算法的實現(xiàn)離不開數(shù)據(jù)結(jié)構(gòu)和算法的支撐,因此良好的數(shù)據(jù)結(jié)構(gòu)與算法基礎(chǔ)是必備的。
  3. 參與實戰(zhàn)項目。通過實際項目實踐,可以更好地將理論知識應(yīng)用到實際問題中,提升解決問題的能力。
  4. 練習編程。熟練掌握至少一種編程語言,并能夠熟練運用該語言實現(xiàn)大數(shù)據(jù)算法。
  5. 積極參與開源社區(qū)。在開源社區(qū)中學(xué)習、交流,可以更深入地了解最新的大數(shù)據(jù)算法發(fā)展趨勢。

結(jié)語

大數(shù)據(jù)算法在當今信息爆炸的時代扮演著至關(guān)重要的角色,對于從事數(shù)據(jù)分析和數(shù)據(jù)科學(xué)相關(guān)工作的人員來說,掌握大數(shù)據(jù)算法是必備的技能之一。通過不斷學(xué)習、實踐和應(yīng)用,相信每個人都可以在大數(shù)據(jù)算法領(lǐng)域取得優(yōu)異的成績。

四、機器學(xué)習算法基礎(chǔ)面試題

了解機器學(xué)習算法基礎(chǔ)面試題的重要性

機器學(xué)習是當今科技領(lǐng)域的熱門話題之一,許多公司在招聘過程中更加重視求職者對機器學(xué)習算法基礎(chǔ)的掌握。在面試中,面試官往往會提出一些與機器學(xué)習算法基礎(chǔ)相關(guān)的問題,這些問題不僅考察了求職者的專業(yè)知識水平,還展現(xiàn)了求職者解決問題的能力和邏輯思維能力。

常見的機器學(xué)習算法基礎(chǔ)面試題

在面試中,經(jīng)常會被問及一些與機器學(xué)習算法基礎(chǔ)相關(guān)的問題,下面列舉了一些常見的面試題:

  • 1. 什么是機器學(xué)習?

    機器學(xué)習是一種通過對數(shù)據(jù)進行學(xué)習和分析,使計算機系統(tǒng)能夠自動學(xué)習和改進的技術(shù)。它主要利用統(tǒng)計學(xué)和數(shù)據(jù)分析來讓計算機系統(tǒng)具備學(xué)習的能力。

  • 2. 請解釋一下監(jiān)督學(xué)習和無監(jiān)督學(xué)習的區(qū)別。

    監(jiān)督學(xué)習是一種通過已知輸入和輸出數(shù)據(jù)之間的關(guān)系來訓(xùn)練模型的機器學(xué)習方法,而無監(jiān)督學(xué)習則是通過不需要標記的輸入數(shù)據(jù)來學(xué)習數(shù)據(jù)結(jié)構(gòu)和模式。

  • 3. 什么是回歸分析?

    回歸分析是一種用于研究變量之間關(guān)系的統(tǒng)計學(xué)方法,它能夠預(yù)測一個變量如何隨著另一個或多個變量的變化而變化。

  • 4. 請簡要介紹一下決策樹算法。

    決策樹算法是一種用于分類和回歸問題的機器學(xué)習算法,它通過構(gòu)建一個樹狀結(jié)構(gòu)來模擬決策過程,根據(jù)輸入特征進行判斷并輸出結(jié)果。

  • 5. 什么是神經(jīng)網(wǎng)絡(luò)?

    神經(jīng)網(wǎng)絡(luò)是一種模仿人腦神經(jīng)元之間信息傳遞方式的算法模型,它通過多層神經(jīng)元之間的連接來實現(xiàn)復(fù)雜的學(xué)習任務(wù)。

如何準備機器學(xué)習算法基礎(chǔ)面試題

準備機器學(xué)習算法基礎(chǔ)面試題需要一定的時間和系統(tǒng)性的學(xué)習過程。以下是一些建議:

  1. 深入學(xué)習算法原理:

    熟悉常見的機器學(xué)習算法,了解其原理和應(yīng)用場景,掌握算法背后的數(shù)學(xué)原理,對于面試中的問題能夠做到心中有數(shù)。

  2. 實踐項目和練習題:

    在學(xué)習過程中進行實踐項目和練習題能夠幫助加深對機器學(xué)習算法的理解和應(yīng)用,同時也能夠提高解決問題的能力。

  3. 參加相關(guān)培訓(xùn)和課程:

    參加機器學(xué)習相關(guān)的培訓(xùn)和課程能夠系統(tǒng)性地學(xué)習知識,并且有機會和其他學(xué)習者進行交流,共同提高。

  4. 關(guān)注學(xué)術(shù)進展和發(fā)展趨勢:

    關(guān)注機器學(xué)習領(lǐng)域的學(xué)術(shù)進展和發(fā)展趨勢,及時了解最新的算法和技術(shù),對于面試中的問題更有把握。

總結(jié)

了解機器學(xué)習算法基礎(chǔ)面試題的重要性,通過對常見問題的準備和學(xué)習,能夠更好地在面試中展現(xiàn)自己的專業(yè)能力和解決問題的能力。不斷學(xué)習和提升自己,在機器學(xué)習領(lǐng)域走得更遠!

五、機器學(xué)習面試題考算法

機器學(xué)習面試題考算法是很多求職者在準備機器學(xué)習崗位面試時必須要重點關(guān)注的部分。隨著人工智能和數(shù)據(jù)科學(xué)領(lǐng)域的快速發(fā)展,對于機器學(xué)習算法的掌握和應(yīng)用已經(jīng)成為許多公司招聘機器學(xué)習工程師的重要考量因素之一。

在面試過程中,除了基礎(chǔ)知識的考察,對于候選人解決實際問題的能力以及對機器學(xué)習算法的理解深度也會進行更深入的評估。因此,熟悉并掌握一些常見的機器學(xué)習面試題目及相關(guān)算法是至關(guān)重要的。

機器學(xué)習面試常見題目

在準備機器學(xué)習面試時,候選人需要熟悉一些常見的面試題目,以確保能夠在面試中游刃有余地回答問題。下面列舉了一些常見的機器學(xué)習面試題目,供大家參考:

  • 1. 什么是機器學(xué)習?

    這是一個基礎(chǔ)性問題,面試官通常會詢問候選人對機器學(xué)習的定義以及其作用和應(yīng)用領(lǐng)域。

  • 2. 機器學(xué)習算法的分類有哪些?

    候選人需要了解監(jiān)督學(xué)習、無監(jiān)督學(xué)習、半監(jiān)督學(xué)習和強化學(xué)習等機器學(xué)習算法的分類,以及它們的應(yīng)用場景和區(qū)別。

  • 3. 什么是過擬合和欠擬合?如何避免?

    過擬合和欠擬合是機器學(xué)習模型常見的問題,候選人需要解釋這兩個概念,并討論如何通過調(diào)整模型參數(shù)或采用正則化方法來避免這些問題。

  • 4. 邏輯回歸和線性回歸的區(qū)別是什么?

    候選人需要清楚地表述邏輯回歸和線性回歸的區(qū)別,包括適用場景、原理和模型形式等方面的差異。

  • 5. 什么是支持向量機(SVM)?

    面試官可能會詢問候選人對支持向量機的理解和應(yīng)用,包括核技巧、軟間隔和硬間隔等概念。

機器學(xué)習算法應(yīng)用場景

了解機器學(xué)習算法的基本概念和原理是重要的,但更加重要的是能夠?qū)⑦@些算法應(yīng)用于實際場景中解決問題。下面介紹了一些常見的機器學(xué)習算法應(yīng)用場景,供候選人參考:

  • 1. 金融領(lǐng)域

    機器學(xué)習在金融領(lǐng)域的應(yīng)用非常廣泛,包括風險評估、詐騙檢測、貸款預(yù)測等方面。

  • 2. 醫(yī)療衛(wèi)生領(lǐng)域

    機器學(xué)習在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用涵蓋疾病診斷、影像處理、基因組學(xué)等多個方面。

  • 3. 零售行業(yè)

    零售行業(yè)利用機器學(xué)習算法進行銷售預(yù)測、客戶行為分析、庫存管理等,提升營銷效率。

  • 4. 交通運輸領(lǐng)域

    機器學(xué)習可用于交通流量預(yù)測、智能交通管理系統(tǒng)和無人駕駛技術(shù)等方面,極大地改善交通效率和安全性。

  • 5. 農(nóng)業(yè)領(lǐng)域

    農(nóng)業(yè)領(lǐng)域中的機器學(xué)習應(yīng)用主要集中在精準農(nóng)業(yè)、作物病害識別和農(nóng)作物產(chǎn)量預(yù)測等方面,幫助農(nóng)民提高生產(chǎn)效率。

總結(jié)

機器學(xué)習面試題考算法是候選人在準備機器學(xué)習崗位面試時需要重點關(guān)注的內(nèi)容之一。通過熟悉常見的機器學(xué)習面試題目和相關(guān)算法,以及了解機器學(xué)習算法的應(yīng)用場景,候選人可以提升自己的面試表現(xiàn),增加獲得心儀工作機會的機會。持續(xù)學(xué)習和實踐將幫助候選人在競爭激烈的機器學(xué)習領(lǐng)域中脫穎而出。

六、mahout面試題?

之前看了Mahout官方示例 20news 的調(diào)用實現(xiàn);于是想根據(jù)示例的流程實現(xiàn)其他例子。網(wǎng)上看到了一個關(guān)于天氣適不適合打羽毛球的例子。

訓(xùn)練數(shù)據(jù):

Day Outlook Temperature Humidity Wind PlayTennis

D1 Sunny Hot High Weak No

D2 Sunny Hot High Strong No

D3 Overcast Hot High Weak Yes

D4 Rain Mild High Weak Yes

D5 Rain Cool Normal Weak Yes

D6 Rain Cool Normal Strong No

D7 Overcast Cool Normal Strong Yes

D8 Sunny Mild High Weak No

D9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak Yes

D11 Sunny Mild Normal Strong Yes

D12 Overcast Mild High Strong Yes

D13 Overcast Hot Normal Weak Yes

D14 Rain Mild High Strong No

檢測數(shù)據(jù):

sunny,hot,high,weak

結(jié)果:

Yes=》 0.007039

No=》 0.027418

于是使用Java代碼調(diào)用Mahout的工具類實現(xiàn)分類。

基本思想:

1. 構(gòu)造分類數(shù)據(jù)。

2. 使用Mahout工具類進行訓(xùn)練,得到訓(xùn)練模型。

3。將要檢測數(shù)據(jù)轉(zhuǎn)換成vector數(shù)據(jù)。

4. 分類器對vector數(shù)據(jù)進行分類。

接下來貼下我的代碼實現(xiàn)=》

1. 構(gòu)造分類數(shù)據(jù):

在hdfs主要創(chuàng)建一個文件夾路徑 /zhoujainfeng/playtennis/input 并將分類文件夾 no 和 yes 的數(shù)據(jù)傳到hdfs上面。

數(shù)據(jù)文件格式,如D1文件內(nèi)容: Sunny Hot High Weak

2. 使用Mahout工具類進行訓(xùn)練,得到訓(xùn)練模型。

3。將要檢測數(shù)據(jù)轉(zhuǎn)換成vector數(shù)據(jù)。

4. 分類器對vector數(shù)據(jù)進行分類。

這三步,代碼我就一次全貼出來;主要是兩個類 PlayTennis1 和 BayesCheckData = =》

package myTesting.bayes;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.util.ToolRunner;

import org.apache.mahout.classifier.naivebayes.training.TrainNaiveBayesJob;

import org.apache.mahout.text.SequenceFilesFromDirectory;

import org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles;

public class PlayTennis1 {

private static final String WORK_DIR = "hdfs://192.168.9.72:9000/zhoujianfeng/playtennis";

/*

* 測試代碼

*/

public static void main(String[] args) {

//將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成 vector數(shù)據(jù)

makeTrainVector();

//產(chǎn)生訓(xùn)練模型

makeModel(false);

//測試檢測數(shù)據(jù)

BayesCheckData.printResult();

}

public static void makeCheckVector(){

//將測試數(shù)據(jù)轉(zhuǎn)換成序列化文件

try {

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String input = WORK_DIR+Path.SEPARATOR+"testinput";

String output = WORK_DIR+Path.SEPARATOR+"tennis-test-seq";

Path in = new Path(input);

Path out = new Path(output);

FileSystem fs = FileSystem.get(conf);

if(fs.exists(in)){

if(fs.exists(out)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(out, true);

}

SequenceFilesFromDirectory sffd = new SequenceFilesFromDirectory();

String[] params = new String[]{"-i",input,"-o",output,"-ow"};

ToolRunner.run(sffd, params);

}

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("文件序列化失?。?#34;);

System.exit(1);

}

//將序列化文件轉(zhuǎn)換成向量文件

try {

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String input = WORK_DIR+Path.SEPARATOR+"tennis-test-seq";

String output = WORK_DIR+Path.SEPARATOR+"tennis-test-vectors";

Path in = new Path(input);

Path out = new Path(output);

FileSystem fs = FileSystem.get(conf);

if(fs.exists(in)){

if(fs.exists(out)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(out, true);

}

SparseVectorsFromSequenceFiles svfsf = new SparseVectorsFromSequenceFiles();

String[] params = new String[]{"-i",input,"-o",output,"-lnorm","-nv","-wt","tfidf"};

ToolRunner.run(svfsf, params);

}

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("序列化文件轉(zhuǎn)換成向量失敗!");

System.out.println(2);

}

}

public static void makeTrainVector(){

//將測試數(shù)據(jù)轉(zhuǎn)換成序列化文件

try {

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String input = WORK_DIR+Path.SEPARATOR+"input";

String output = WORK_DIR+Path.SEPARATOR+"tennis-seq";

Path in = new Path(input);

Path out = new Path(output);

FileSystem fs = FileSystem.get(conf);

if(fs.exists(in)){

if(fs.exists(out)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(out, true);

}

SequenceFilesFromDirectory sffd = new SequenceFilesFromDirectory();

String[] params = new String[]{"-i",input,"-o",output,"-ow"};

ToolRunner.run(sffd, params);

}

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("文件序列化失?。?#34;);

System.exit(1);

}

//將序列化文件轉(zhuǎn)換成向量文件

try {

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String input = WORK_DIR+Path.SEPARATOR+"tennis-seq";

String output = WORK_DIR+Path.SEPARATOR+"tennis-vectors";

Path in = new Path(input);

Path out = new Path(output);

FileSystem fs = FileSystem.get(conf);

if(fs.exists(in)){

if(fs.exists(out)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(out, true);

}

SparseVectorsFromSequenceFiles svfsf = new SparseVectorsFromSequenceFiles();

String[] params = new String[]{"-i",input,"-o",output,"-lnorm","-nv","-wt","tfidf"};

ToolRunner.run(svfsf, params);

}

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("序列化文件轉(zhuǎn)換成向量失敗!");

System.out.println(2);

}

}

public static void makeModel(boolean completelyNB){

try {

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String input = WORK_DIR+Path.SEPARATOR+"tennis-vectors"+Path.SEPARATOR+"tfidf-vectors";

String model = WORK_DIR+Path.SEPARATOR+"model";

String labelindex = WORK_DIR+Path.SEPARATOR+"labelindex";

Path in = new Path(input);

Path out = new Path(model);

Path label = new Path(labelindex);

FileSystem fs = FileSystem.get(conf);

if(fs.exists(in)){

if(fs.exists(out)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(out, true);

}

if(fs.exists(label)){

//boolean參數(shù)是,是否遞歸刪除的意思

fs.delete(label, true);

}

TrainNaiveBayesJob tnbj = new TrainNaiveBayesJob();

String[] params =null;

if(completelyNB){

params = new String[]{"-i",input,"-el","-o",model,"-li",labelindex,"-ow","-c"};

}else{

params = new String[]{"-i",input,"-el","-o",model,"-li",labelindex,"-ow"};

}

ToolRunner.run(tnbj, params);

}

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("生成訓(xùn)練模型失?。?#34;);

System.exit(3);

}

}

}

package myTesting.bayes;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.fs.PathFilter;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.mahout.classifier.naivebayes.BayesUtils;

import org.apache.mahout.classifier.naivebayes.NaiveBayesModel;

import org.apache.mahout.classifier.naivebayes.StandardNaiveBayesClassifier;

import org.apache.mahout.common.Pair;

import org.apache.mahout.common.iterator.sequencefile.PathType;

import org.apache.mahout.common.iterator.sequencefile.SequenceFileDirIterable;

import org.apache.mahout.math.RandomAccessSparseVector;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.Vector.Element;

import org.apache.mahout.vectorizer.TFIDF;

import com.google.common.collect.ConcurrentHashMultiset;

import com.google.common.collect.Multiset;

public class BayesCheckData {

private static StandardNaiveBayesClassifier classifier;

private static Map<String, Integer> dictionary;

private static Map<Integer, Long> documentFrequency;

private static Map<Integer, String> labelIndex;

public void init(Configuration conf){

try {

String modelPath = "/zhoujianfeng/playtennis/model";

String dictionaryPath = "/zhoujianfeng/playtennis/tennis-vectors/dictionary.file-0";

String documentFrequencyPath = "/zhoujianfeng/playtennis/tennis-vectors/df-count";

String labelIndexPath = "/zhoujianfeng/playtennis/labelindex";

dictionary = readDictionnary(conf, new Path(dictionaryPath));

documentFrequency = readDocumentFrequency(conf, new Path(documentFrequencyPath));

labelIndex = BayesUtils.readLabelIndex(conf, new Path(labelIndexPath));

NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), conf);

classifier = new StandardNaiveBayesClassifier(model);

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

System.out.println("檢測數(shù)據(jù)構(gòu)造成vectors初始化時報錯。。。。");

System.exit(4);

}

}

/**

* 加載字典文件,Key: TermValue; Value:TermID

* @param conf

* @param dictionnaryDir

* @return

*/

private static Map<String, Integer> readDictionnary(Configuration conf, Path dictionnaryDir) {

Map<String, Integer> dictionnary = new HashMap<String, Integer>();

PathFilter filter = new PathFilter() {

@Override

public boolean accept(Path path) {

String name = path.getName();

return name.startsWith("dictionary.file");

}

};

for (Pair<Text, IntWritable> pair : new SequenceFileDirIterable<Text, IntWritable>(dictionnaryDir, PathType.LIST, filter, conf)) {

dictionnary.put(pair.getFirst().toString(), pair.getSecond().get());

}

return dictionnary;

}

/**

* 加載df-count目錄下TermDoc頻率文件,Key: TermID; Value:DocFreq

* @param conf

* @param dictionnaryDir

* @return

*/

private static Map<Integer, Long> readDocumentFrequency(Configuration conf, Path documentFrequencyDir) {

Map<Integer, Long> documentFrequency = new HashMap<Integer, Long>();

PathFilter filter = new PathFilter() {

@Override

public boolean accept(Path path) {

return path.getName().startsWith("part-r");

}

};

for (Pair<IntWritable, LongWritable> pair : new SequenceFileDirIterable<IntWritable, LongWritable>(documentFrequencyDir, PathType.LIST, filter, conf)) {

documentFrequency.put(pair.getFirst().get(), pair.getSecond().get());

}

return documentFrequency;

}

public static String getCheckResult(){

Configuration conf = new Configuration();

conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

String classify = "NaN";

BayesCheckData cdv = new BayesCheckData();

cdv.init(conf);

System.out.println("init done...............");

Vector vector = new RandomAccessSparseVector(10000);

TFIDF tfidf = new TFIDF();

//sunny,hot,high,weak

Multiset<String> words = ConcurrentHashMultiset.create();

words.add("sunny",1);

words.add("hot",1);

words.add("high",1);

words.add("weak",1);

int documentCount = documentFrequency.get(-1).intValue(); // key=-1時表示總文檔數(shù)

for (Multiset.Entry<String> entry : words.entrySet()) {

String word = entry.getElement();

int count = entry.getCount();

Integer wordId = dictionary.get(word); // 需要從dictionary.file-0文件(tf-vector)下得到wordID,

if (StringUtils.isEmpty(wordId.toString())){

continue;

}

if (documentFrequency.get(wordId) == null){

continue;

}

Long freq = documentFrequency.get(wordId);

double tfIdfValue = tfidf.calculate(count, freq.intValue(), 1, documentCount);

vector.setQuick(wordId, tfIdfValue);

}

// 利用貝葉斯算法開始分類,并提取得分最好的分類label

Vector resultVector = classifier.classifyFull(vector);

double bestScore = -Double.MAX_VALUE;

int bestCategoryId = -1;

for(Element element: resultVector.all()) {

int categoryId = element.index();

double score = element.get();

System.out.println("categoryId:"+categoryId+" score:"+score);

if (score > bestScore) {

bestScore = score;

bestCategoryId = categoryId;

}

}

classify = labelIndex.get(bestCategoryId)+"(categoryId="+bestCategoryId+")";

return classify;

}

public static void printResult(){

System.out.println("檢測所屬類別是:"+getCheckResult());

}

}

七、webgis面試題?

1. 請介紹一下WebGIS的概念和作用,以及在實際應(yīng)用中的優(yōu)勢和挑戰(zhàn)。

WebGIS是一種基于Web技術(shù)的地理信息系統(tǒng),通過將地理數(shù)據(jù)和功能以可視化的方式呈現(xiàn)在Web瀏覽器中,實現(xiàn)地理空間數(shù)據(jù)的共享和分析。它可以用于地圖瀏覽、空間查詢、地理分析等多種應(yīng)用場景。WebGIS的優(yōu)勢包括易于訪問、跨平臺、實時更新、可定制性強等,但也面臨著數(shù)據(jù)安全性、性能優(yōu)化、用戶體驗等挑戰(zhàn)。

2. 請談?wù)勀赪ebGIS開發(fā)方面的經(jīng)驗和技能。

我在WebGIS開發(fā)方面有豐富的經(jīng)驗和技能。我熟悉常用的WebGIS開發(fā)框架和工具,如ArcGIS API for JavaScript、Leaflet、OpenLayers等。我能夠使用HTML、CSS和JavaScript等前端技術(shù)進行地圖展示和交互設(shè)計,并能夠使用后端技術(shù)如Python、Java等進行地理數(shù)據(jù)處理和分析。我還具備數(shù)據(jù)庫管理和地理空間數(shù)據(jù)建模的能力,能夠設(shè)計和優(yōu)化WebGIS系統(tǒng)的架構(gòu)。

3. 請描述一下您在以往項目中使用WebGIS解決的具體問題和取得的成果。

在以往的項目中,我使用WebGIS解決了許多具體問題并取得了顯著的成果。例如,在一次城市規(guī)劃項目中,我開發(fā)了一個基于WebGIS的交通流量分析系統(tǒng),幫助規(guī)劃師們評估不同交通方案的效果。另外,在一次環(huán)境監(jiān)測項目中,我使用WebGIS技術(shù)實現(xiàn)了實時的空氣質(zhì)量監(jiān)測和預(yù)警系統(tǒng),提供了準確的空氣質(zhì)量數(shù)據(jù)和可視化的分析結(jié)果,幫助政府和公眾做出相應(yīng)的決策。

4. 請談?wù)勀鷮ebGIS未來發(fā)展的看法和期望。

我認為WebGIS在未來會繼續(xù)發(fā)展壯大。隨著云計算、大數(shù)據(jù)和人工智能等技術(shù)的不斷進步,WebGIS將能夠處理更大規(guī)模的地理數(shù)據(jù)、提供更豐富的地理分析功能,并與其他領(lǐng)域的技術(shù)進行深度融合。我期望未來的WebGIS能夠更加智能化、個性化,為用戶提供更好的地理信息服務(wù),助力各行各業(yè)的決策和發(fā)展。

八、freertos面試題?

這塊您需要了解下stm32等單片機的基本編程和簡單的硬件設(shè)計,最好能夠了解模電和數(shù)電相關(guān)的知識更好,還有能夠會做操作系統(tǒng),簡單的有ucos,freeRTOS等等。最好能夠使用PCB畫圖軟件以及keil4等軟件。希望對您能夠有用。

九、paas面試題?

1.負責區(qū)域大客戶/行業(yè)客戶管理系統(tǒng)銷售拓展工作,并完成銷售流程;

2.維護關(guān)鍵客戶關(guān)系,與客戶決策者保持良好的溝通;

3.管理并帶領(lǐng)團隊完成完成年度銷售任務(wù)。

十、面試題類型?

你好,面試題類型有很多,以下是一些常見的類型:

1. 技術(shù)面試題:考察候選人技術(shù)能力和經(jīng)驗。

2. 行為面試題:考察候選人在過去的工作或生活中的行為表現(xiàn),以預(yù)測其未來的表現(xiàn)。

3. 情境面試題:考察候選人在未知情境下的決策能力和解決問題的能力。

4. 案例面試題:考察候選人解決實際問題的能力,模擬真實工作場景。

5. 邏輯推理題:考察候選人的邏輯思維能力和分析能力。

6. 開放性面試題:考察候選人的個性、價值觀以及溝通能力。

7. 挑戰(zhàn)性面試題:考察候選人的應(yīng)變能力和創(chuàng)造力,通常是一些非常具有挑戰(zhàn)性的問題。

相關(guān)資訊
熱門頻道

Copyright © 2024 招聘街 滇ICP備2024020316號-38