连接到 Cloudera Impala

发布 Analytics 17.x 之后,会停用这个版本的 Cloudera Impala 数据连接器。
请立即测试并转换到新版本的连接器,以便可以在 Analytics 18 中继续连接到 Impala。(暂定于 2024 年秋季发布)
请参阅 转换到新的 ACL 连接器版本

Concept Information

ACCESSDATA 命令

Cloudera Impala 是一种云数据服务。您可以使用 Cloudera Impala 数据连接器导入您的组织的 Impala 数据。

说明

Analytics 提供 Impala 作为可选的连接器,如果它在您的“数据访问”窗口中不可用,则可能是在安装过程中未选择该连接器。有关详细信息,请参阅安装可选的 Analytics 数据连接器和 Python 引擎

开始之前

要连接到 Impala,您必须收集以下信息:

  • 用户名
  • 密码
  • 读取访问权限

有关收集连接必备信息的帮助,请联系Impala您组织中的管理员。如果您的管理员不能帮助您,您或者您的管理员应该联系Impala支持人员。

创建一个 Impala 连接

  1. 从 Analytics 主菜单中选择导入 > 数据库和应用程序Analytics。
  2. 新建连接选项卡中,在 ACL 连接器部分中,选择 Impala

    提示

    您可以通过在过滤连接框中输入搜索字符串来过滤可用连接器的列表。连接器按字母顺序排列。

  3. 数据连接设置面板中,输入连接设置,然后在面板底部单击保存并连接

    您可以接受默认的连接名称,也可以输入一个新的名称。

Impala的连接被保存到现有连接选项卡。将来,您可以从已保存的连接重新连接到Impala

一旦连接被建立,“数据访问”窗口将打开到暂存区域,并且您可以开始导入数据。有关从Impala导入数据的帮助,请参见使用数据访问窗口

连接设置

基本设置

设置 描述 示例
主机

Impala 服务器的 IP 地址或者主机名。

 
端口 到 Impala 服务器实例的连接的端口。  
数据库 要在默认情况下使用的 Impala 数据库的名称。  
认证机制

要使用的认证机制。可用的选项是:

  • 无认证
  • Kerberos
  • SASL 用户名
  • 用户名和密码
无认证
领域 Impala 主机的领域。  
主机 FQDN Impala 主机的完全限定域名称。 _HOST
服务名称 Impala 服务器的 Kerberos 服务主体名称。 impala
用户名 用于访问 Impala 服务器的用户名。  
密码 用来向 Impala 服务器进行认证的密码。  
传输缓冲区大小 要在内存中保留以用来缓冲来自网络的非加密数据的字节数。 1000
使用简单认证和安全层(SASL) 指定驱动程序是否使用 SASL 处理认证。  
委派 UID 在为此选项指定一个用户 ID 后,Impala 驱动程序会将针对 Impala 的所有操作委托给指定的用户,而不是委托给该连接的认证用户。  

高级设置

设置 描述 示例
启用 SSL

指定客户端是否使用 SSL 加密连接与 Impala 通信。

 
允许公共名/主机名不匹配 指定证书颁发机构发布的 SSL 证书名称是否必须与 Impala 服务器的主机名匹配。  
允许自签名的服务器证书 指定驱动程序是否允许连接到使用自签署证书的 Impala 服务器。  
可信的证书 包含可信 CA 证书(用来在使用 SSL 时验证服务器)的 .pem 文件的完整路径。  
使用本机查询 指定驱动程序是否使用固有 Impala SQL 查询。如果未选择此选项,则驱动程序会将应用程序发出的查询转换为 Impala SQL 中的等效形式。如果应用程序支持 Impala 并且已经发出 Impala SQL,则启用此选项可避免与查询转换有关的额外开销。  
启用模拟事务处理 指定该驱动程序是否应该模拟交易。禁用后,驱动程序会在它尝试运行包含交易语句的查询时返回错误。  
使用 SQL Unicode 类型 指定要为字符串数据类型返回的 SQL 类型。启用后,驱动程序为 STRING 列和 VARCHAR 列返回 SQL_WVARCHAR,为 CHAR 列返回 SQL_WCHAR。  
每个块获取的行数 查询一次返回的最大行数。 10000
套接字超时

TCP 套接字在使请求超时并返回错误消息之前等待服务器响应的秒数。

如果被设置为 0,则 TCP 套接字不会使任何请求超时。

30
字符串列长度 STRING 列中可以包含的最大字符数。 32767

数据连接器更新

当您升级 Analytics 或机器人代理时,应该使用一个 Analytics 数据连接器(ACCESSDATA 命令)测试用于导入数据的脚本。

由第三方数据源或 ODBC 驱动程序供应商进行的更改可能要求更新一个或多个数据连接器。脚本化数据连接可能需要更新以便继续正确工作。

  • 重新运行导入更新连接的最轻松方式是使用 Analytics 升级版本中的数据访问窗口手动执行导入。从日志复制 ACCESSDATA 命令并使用它更新您的脚本。

    说明

    在连接到数据源并重新运行导入之前,请清除连接器缓存以冲刷现有的表名称集。

    在数据访问窗口的现有连接选项卡中,在连接器名称旁边选择 > 清除缓存

  • 更新域规范您还可能需要更新脚本主体中的域规范以匹配数据源或 ODBC 驱动程序中的表架构更改。可能的更改包括域名称、域数据类型、域和记录长度。
  • 检查任何过滤的结果您还应该检查您在数据导入过程中应用的任何过滤的结果。您还应该检查您在数据导入过程中应用的任何过滤的结果。