溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

transform python環(huán)境快速配置方法

發(fā)布時(shí)間:2020-08-28 08:09:43 來源:腳本之家 閱讀:240 作者:brucelu 欄目:開發(fā)技術(shù)

經(jīng)常在數(shù)據(jù)開發(fā)中需要搞udf,最近發(fā)現(xiàn)transform更加方便易用,但是經(jīng)常會(huì)涉及到集群python版本不一、包不全或者部分機(jī)器上沒有安裝python。

所以咱們需要快速的進(jìn)行環(huán)境配置。

因?yàn)閙ac自帶安裝好的python,所以就不講怎么安裝了??梢匀ス倬W(wǎng)下個(gè): https://www.python.org/downloads/source/

1、安裝虛擬環(huán)境工具:

執(zhí)行:pip install virtualenv,如果沒有pip的話可以google一把,自行安裝

2、創(chuàng)建虛擬環(huán)境:

新建一個(gè)目錄,各種環(huán)境文件放里面:

midir envs

cd 到該目錄下,創(chuàng)建python虛擬環(huán)境:

virtualenv python-env

創(chuàng)建完了可以看到會(huì)新增一個(gè)python-env文件夾。

如果你對(duì)python版本有要求,也可以指定python版本進(jìn)行創(chuàng)建:

virtualenv -p /usr/bin/python2.7 python-env

3、在新的虛擬環(huán)境安裝自己需要的包:

激活虛擬環(huán)境:

source python-env/bin/activate

這時(shí)候在這個(gè)環(huán)境下安裝的py包都是在該環(huán)境下的,可以用pip install進(jìn)行安裝

例如:pip install pyhs2

(安裝pyhs2的時(shí)候出現(xiàn)異常 Cannot uninstall 'six'. It is a distutils installed project,直接跳過 sudo pip install pyhs2 --ignore-installed six)

退出虛擬環(huán)境:

deactivate

4、修改文件配置:

進(jìn)入虛擬環(huán)境的bin文件夾

修改activate文件內(nèi)的路徑:

DIR_PATH="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
VIRTUAL_ENV="$( readlink -f "${DIR_PATH}/../" )"

5、打包文件:

進(jìn)入 python-env文件夾內(nèi)(因?yàn)槟夸泴蛹?jí)少一點(diǎn)), 打包虛擬環(huán)境:

tar -zcf python-env.tgz *

檢查一下打包文件是否把對(duì)應(yīng)包打進(jìn)去了,查看打包是否把pyhs2打進(jìn)去了:

tar -tvf python-env.tgz |grep "pyhs2"

6、如何引用python環(huán)境

新建shell文件例如test.sh,代碼如下:

source ./python-env.tgz/bin/activate
python test_transform.py

寫好 test_ transform 的代碼,例如簡(jiǎn)單的計(jì)算(不要糾結(jié)案例的業(yè)務(wù)邏輯):

# -*- coding: utf-8 -*-
import sys

def main():
  data_list = sys.stdin.readlines()
  # 獲取id循環(huán)次數(shù),除數(shù)-1,結(jié)果加+1
  n = (data_list.__len__() - 1)/20 + 1
  j = 1
  while j <= n:
    id_lists = data_list[(j - 1) * 20:j * 20]
    ids = []
    for id in id_lists:
      ids.append(id.strip())
    j += 1
    for id in ids:
      result=[id,str(id*100),str(id+10)]
    print '\t'.join(str(e) for e in result)

if __name__ == "__main__":
  main()

把python-env.tgz、 test.sh、test_ transform.py 上傳至集群的hdfs上,例如在:hdfs:///user/tmp

7、hive引用transfrom:

進(jìn)入hive客戶端后,加載上述文件:

ADD ARCHIVE hdfs:///user/tmp/python-env.tgz;
ADD FILE hdfs:///user/tmp/test.sh;
ADD FILE hdfs:///user/tmp/test_transform.py;

執(zhí)行hsql:

select
transform(id) USING 'test.sh' as (id,price1,price2)
from
(
select 100 as id from dual
)

以上整個(gè)流程搞通,那么就算集群上沒有裝python,你都可以自己創(chuàng)建transform進(jìn)行快速開發(fā)了。

以上所述是小編給大家介紹的transform python環(huán)境快速配置方法,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)億速云網(wǎng)站的支持!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI