抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。


不过由于使用了签名机制,使得我们很难模拟一个有效的请求,因为在所有请求中都有as和cp两个签名参数,在得知签名算法之前,我们无法构造出有效的请求。

这里我们可以模拟操作抖音App的方式,让App发出有效的请求,然后通过拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。

下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。


点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。


我们按如下步骤模拟操作App:

1.启动抖音。

2.点击搜索按钮。

3.输入搜索关键词(抖音用户ID),点击搜索。

4.找到匹配的用户,点击关注。

5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。

于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。


模拟操作抖音App的脚本核心代码如下所示:

  1. from com.dtmilano.android.viewclient import ViewClient  
  2.   
  3. def search_douyin_for_recommend_user(douyin_id):  
  4.      """采集指定抖音账号的关注推荐数据 
  5.      """  
  6.      log(u'准备采集"{}"对应的关注推荐数据'.format(douyin_id))  
  7.      # 连设备  
  8.      serialno = None  
  9.      if serialno:  
  10.           os.system('adb connect {}'.format(serialno or ''))  
  11.           time.sleep(3)  
  12.                   
  13.      device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno)  
  14.      vc = ViewClient(device, serialno, autodump=False)  
  15.        
  16.      # 强制关闭抖音  
  17.      log(u'强制关闭抖音.')  
  18.      device.shell('am force-stop com.ss.android.ugc.aweme')  
  19.      time.sleep(2)  
  20.        
  21.      # 启动抖音  
  22.      log(u'启动抖音.')  
  23.      device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')  
  24.      time.sleep(5)  
  25.      # 暂停视频播放  
  26.      log(u'点击屏幕,暂停视频播放.')  
  27.      device.touch(5141048)  
  28.        
  29.      # 点击搜索按钮  
  30.      vc.dump()  
  31.      search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj')  
  32.      if search_btn:  
  33.           log(u'点击搜索按钮,跳转到搜索页面.')  
  34.           search_btn.touch()  
  35.        
  36.           vc.dump()  
  37.           # 点击搜索输入框  
  38.           search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_')  
  39.           if search_input:  
  40.                log(u'点击搜索框,准备输入关键词.')  
  41.                search_input.touch()  
  42.                  
  43.                # 输入抖音ID  
  44.                log(u'输入搜索关键词: {}.'.format(douyin_id))  
  45.                device.type(douyin_id.encode('UTF-8'))  
  46.                  
  47.                # 点击搜索按钮  
  48.                search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8')  
  49.                if search_btn:  
  50.                     log(u'提交搜索.')  
  51.                     search_btn.touch()  
  52.                     time.sleep(2)  
  53.                     vc.dump()  
  54.                       
  55.                     ## 切换到用户  
  56.                     #user_tab = vc.findViewWithText(u'用户')  
  57.                     #user_tab.touch()  
  58.                       
  59.                     # 找到匹配的  
  60.                     matches = []  
  61.                     def find_matches(view):  
  62.                          if view.getClass() == 'android.widget.TextView':  
  63.                               text = view.getText()  
  64.                               if douyin_id.lower() in text.lower():  
  65.                                    # 找到匹配的了  
  66.                                    log(u'找到匹配的: {}'.format(text))  
  67.                                    matches.append(view)  
  68.                               else:  
  69.                                    #print text  
  70.                                    pass  
  71.                     vc.traverse(transform=lambda view: find_matches(view))  
  72.                     if matches:  
  73.                          # 有没有已关注按钮  
  74.                          btn = vc.findViewWithText(u'已关注')  
  75.                          if btn:  
  76.                               # 先取消关注  
  77.                               log(u'之前关注过,先取消关注.')  
  78.                               btn.touch()  
  79.                               time.sleep(1)  
  80.                          user_matched = matches[0]  
  81.                          log(u'点击进入个人主页.')  
  82.                          user_matched.touch()  
  83.                          time.sleep(1)  
  84.                            
  85.                          # 点关注  
  86.                          vc.dump()  
  87.                          follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei')  
  88.                          if follow_btn:  
  89.                               # 点击关注  
  90.                               log(u'点击关注')  
  91.                               follow_btn.touch()  
  92.                               time.sleep(1)  
  93.                               # 点击查看更多  
  94.                               vc.dump()  
  95.                               viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn')  
  96.                               if viewmore_btn:  
  97.                                    # 点击查看更多  
  98.                                    log(u'点击查看更多系统推荐')  
  99.                                    viewmore_btn.touch()  
  100.                                    time.sleep(1)  
  101.                                    i = 0  
  102.                                    while True:  
  103.                                         # 上滑动  
  104.                                         device.drag((3451762), (345550), duration=100)  
  105.                                         log(u'上滑以加载更多')  
  106.                                         i += 1  
  107.                                         if i % 5 == 0:  
  108.                                              # 拖动10次判断一下是否还有更多  
  109.                                              vc.dump()  
  110.                                              if vc.findViewWithText(u'暂时没有更多了'):  
  111.                                                   log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))  
  112.                                                   # 采集成功了  
  113.                                                   return True  
  114.                                              failed_tip = vc.findViewWithText(u'加载失败,点击重试')  
  115.                                              if failed_tip:  
  116.                                                   log(u'加载失败,点击重试.')  
  117.                                                   failed_tip.touch()  
  118.                               else:  
  119.                                    # 没有找到查看更多按钮  
  120.                                    log(u'没有找到查看更多按钮')  
  121.                          else:  
  122.                               # 没有找到加关注按钮  
  123.                               log(u'没有找到加关注按钮')  
  124.                     else:  
  125.                          # 没有找到匹配的用户  
  126.                          log(u'没有找到匹配的用户')  
  127.                else:  
  128.                    # 没有找到搜索提交按钮  
  129.                     log(u'没有找到搜索提交按钮.')  
  130.           else:  
  131.                # 没有找到搜索输入框  
  132.                log(u'没有找到搜索输入框.')  
  133.      else:  
  134.           # 没有找到搜索按钮  
  135.           log(u'没有找到搜索按钮.')  

上述脚本的运行截图如下所示:


最后附上抓取到的部分示例数据:

点赞(0)
立即
投稿
发表
评论
返回
顶部
{__SCRIPT__}